Winny ネットワーク上を流通するコンテンツの傾向と分析(O)
打田 研二
†1高木 浩光
†2山崎 邦弘
†3山名 早人
†4†1,†3 早稲田大学大学院基幹理工学研究科 〒169-8555 東京都新宿区大久保 3-4-1
†2 産業技術総合研究所 〒101-0021 東京都千代田区外神田 1-18-13 秋葉原ダイビル
†4 早稲田大学理工学術院 〒169-8555 東京都新宿区大久保 3-4-1
E-mail:
†1, †3, †4{k_uchida,yaz79,yamana}@yama.info.waseda.ac.jp
†2[email protected]
あらまし 近年、P2P(Peer to Peer)
ファイル共有ソフトの利用が一般世帯にまで広まっており,様々なコンテ
ンツが P2P ファイル共有ソフト上で共有されている.しかし,P2P ファイル共有ソフトのネットワーク上を流
通しているコンテンツに対する網羅的な調査報告は存在しない.そこで本稿では,Winny ネットワーク上の
4,000 千万件のインデックスを解析することにより,コンテンツの分布を明らかにする.具体的には,ファイ
ル名についてその分布をクラスタリングし解析した.なお,ファイル名には特有の単語が存在し,既存の形態
素解析をそのまま適用することができないため,シーケンシャルパターンマイニングを応用することにより,
未知の単語についての抽出を試みた.実験の結果,Winny ネットワークを流通するコンテンツを単語単位の粒
度で知ることができ,特に同人,アダルト,アニメに関連するファイルが多いことが判明した.
キーワード P2P,Winny,ファイル交換ソフトウェア,単語抽出The Analysis of Contents on the Winny Network(O)
Kenji Uchida
†1Hiromitsu Takagi
†2Kunihiro Yamazaki
†3Hayato Yamana
†4†1,†3Graduate School of Fundamental Science and Engineering, Waseda University 3–4–1 Okubo, Shinjuku-ku, Tokyo, 169–8555, Japan
†2 Research Center for Information Security, National Institute of Advanced Industrial Science and Technology
Akihabara Daibiru, 1-18-13 Sotokanda, Chiyoda-ku, Tokyo 101-0021, Japan
†4 Science and Engineering, Waseda University 3–4–1 Okubo, Shinjuku-ku, Tokyo, 169–8555, Japan
E-mail:
†1, †3, †4{k_uchida,yaz79,yamana}@yama.info.waseda.ac.jp
†2
[email protected]
Abstract Recently, the use of the P2P(Peer to Peer) file sharing software are spread and various contents are shared on the P2P software. However, there is no comprehensive research about the contents shared on P2P network. In this paper, we research what contents are shared on the Winny network. We collected four billion file indexes on the Winny network and analyzing those indexes for investigating what contents are much shared and we clustered similar contents about filename. We attempted extracting words by using sequential pattern mining. We couldn't use a normal morphological analysis machine because contents are named by particular way. As a result, we acquired word-level contents shared on the Winny network. We could find out a lot of contents are shared, especially that are relevant to coterie or adult or cartoon.
Keyword Peer to Peer, Winny, File sharing software, word extraction
1. は じ め に
昨 今 , ユ ー ザ が 大 容 量 の デ ー タ を 高 速 に ダ ウ ン ロ ー ド , ア ッ プ ロ ー ド す る こ と が 可 能 に な る に 伴 い , P2P(Peer to Peer)ア プ リ ケ ー シ ョ ン が 一 般 の 人 々 へ 普 及 し て い っ た . な か で も フ ァ イ ル 共 有 ソ フ ト の 普 及 は 特 に 目 覚 ま し い .Gnutella[1], BitTorrent[2], FastTrack[3], Overnet[4]な ど の プ ロ ト コ ル を 基 盤 に 用 い て P2P フ ァ イ ル 共 有 ソ フ ト を 開 発 し や す い こ と も あ り ,こ れ ら の プ ロ ト コ ル を 利 用 し たP2P フ ァ イ ル 共 有 ソ フ ト が 世 界 中 で1 日 あ た り 数 百 万 人 規 模 の ユ ー ザ に 利 用 さ れ て い る[3][5][6][7]. 日 本 に お い て も Winny[8]や Share[9]と い っ た フ ァ イ ル 共 有 ソ フ ト が 多 数 の ユ ー ザ に 利 用 さ れ て い る . 一 方 で , コ ン ピ ュ ー タ ソ フ ト ウ ェ ア 著 作 権 協 会(以 下 ACCS)が 行 っ た 調 査 に よ る と ,P2P ネ ッ ト ワ ー ク 上 で 共 有 さ れ て い る フ ァ イ ル に は 現 在 の 著 作 権 法 上 違 法 と さ れ る フ ァ イ ル が 多 い と 報 告 さ れ て い る[10]. し か し , 従 来 の 調 査 で は 音 楽 や 動 画 な ど と い っ た 大 ま か な カ テ ゴ リ 単 位 で コ ン テ ン ツ の 流 通 状 況 を 明 ら か に し た 資 料 は 存 在 し て い る が ,何 の コ ン テ ン ツ が P2P フ ァ イ ル 共 有 ソ フ ト で 共 有 さ れ て い る か ま で は 明 ら か に さ れ て お ら ず , 詳 細 は 不 明 で あ る . そ こ で 本 稿 で は 国 内 で 広 く 普 及 し て い る フ ァ イ ル 共 有 ソ フ トWinny を 観 測 の 対 象 と し ,何 の コ ン テ ン ツ がP2P フ ァ イ ル 共 有 ネ ッ ト ワ ー ク 上 を 流 通 し て い る か を 把 握 す る 手 法 を 提 案 す る .Winny 上 で キ ー と 呼 ば れ る イ ン デ ッ ク ス 情 報 を 観 測 し , ど の よ う な コ ン テ ン ツ がWinny 上 で 流 通 し て い る か 推 定 す る .イ ン デ ッ ク ス 情 報 に 含 ま れ る フ ァ イ ル 名 か ら , ヒ ュ ー リ ス テ ィ ッ ク な 手 法 を 用 い て Winny 上 で 使 用 さ れ て い る 単 語 を 機 械 的 に 抽 出 す る .そ し て ,抽 出 さ れ た 単 語 同 士 の フ ァ イ ル 名 に 対 す る 共 起 率 を 用 い る こ と に よ り , 類 似 す る 単 語 同 士 で ク ラ ス タ を 構 成 す る . 最 後 に 構 成 さ れ た ク ラ ス タ 群 を 出 力 す る こ と に よ り ,Winny 上 を 流 通 す る コ ン テ ン ツ を 視 覚 的 に 捉 え る こ と を 可 能 に す る . 本 稿 で は 以 下 の 構 成 を と る .ま ず 第 2 節 で 既 存 研 究 と そ の 問 題 点 を 述 べ ,第3 節 で 提 案 手 法 で 用 い る 関 連 技 術 に つ い て 述 べ る .次 に 第 4 節 で 提 案 手 法 の 詳 細 を 述 べ る .そ し て 第5 節 で は 実 験 の 結 果 を 記 す と と も に 考 察 し , 最 後 に 第 6 節 で ま と め る .
2. P2P フ ァ イ ル 共 有 ソ フ ト に 関 わ る 研 究
本 節 で は , P2P フ ァ イ ル 共 有 ソ フ ト の 解 析 調 査 に 関 連 し て い る 既 存 研 究 を 報 告 す る .2.1. コンテンツの流 通 状 況
こ れ ま で に P2P フ ァ イ ル 共 有 ソ フ ト 内 の コ ン テ ン ツ の 流 通 状 況 を ま と め た 報 告 は 少 な い . 本 節 で は , 拡 張 子 で コ ン テ ン ツ の 統 計 を と っ た 大 井 ら の 研 究[11]と , 大 ま か な カ テ ゴ リ に 人 手 で 分 類 し たACCS の 報 告 [10] に つ い て 示 す .2.1.1. 大 井 ら の 調 査 [11]
P2P ネ ッ ト ワ ー ク 内 を 流 通 す る フ ァ イ ル の サ イ ズ や 拡 張 子 の 分 布 が 大 井 ら に よ っ て 調 査 さ れ , 報 告 さ れ て い る . 大 井 ら の 実 験 で は WinMX, Gnutella, Winny の3 つ の P2P ネ ッ ト ワ ー ク 内 に 流 通 す る フ ァ イ ル 情 報 を 収 集 し , 各 P2P ネ ッ ト ワ ー ク に 対 し て 音 楽 (mp3), 動 画 (mpg),ア ー カ イ ブ (zip),画 像 フ ァ イ ル (jpg)な ど と い っ た 代 表 的 な 拡 張 子 で 集 計 し , ネ ッ ト ワ ー ク 全 体 に お け る 拡 張 子 の 流 通 の 割 合 を 調 査 し て い る .Winny に つ い て は2003 年 4 月 18 日 か ら 20 日 ま で の 3 日 間 (68 時 間)測 定 し て い る .図 1に 大 井 ら に よ っ て 報 告 さ れ た Winny ネ ッ ト ワ ー ク に お け る 拡 張 子 の 分 布 を 示 す .2.1.2. ACCS の 報 告 [10]
ACCS は ,実 際 に P2P フ ァ イ ル 共 有 ソ フ ト を 利 用 し た 経 験 が あ る ユ ー ザ に 対 し てWEB ア ン ケ ー ト を 2007 年9 月 14 日 ~ 2007 年 9 月 24 日 の 期 間 で 実 施 し て い る . ユ ー ザ は { 音 楽 , 映 像 , ソ フ ト ウ ェ ア , 写 真 ・ 画 像 , 情 報 漏 洩 } の カ テ ゴ リ で 自 分 が ダ ウ ン ロ ー ド し た こ と が あ る フ ァ イ ル を 回 答 し て い る . ま た , 実 際 に ど の よ う な コ ン テ ン ツ が P2P ネ ッ ト ワ ー ク 上 で 流 通 し て い る か を 把 握 す る た め ,Winny を 対 象 と し て 調 査 を 行 っ て い る .2007 年 9 月 28 日 17:00 か ら 2007 年 9 月 29 日 17:00 ま で の 24 時 間 の 間 に Winny ネ ッ ト ワ ー ク か ら 得 ら れ た フ ァ イ ル 名 か ら 約 20,004 件 を ラ ン ダ ム に 抽 出 し ,人 手 に よ っ て 予 め 用 意 さ れ た6 つ の カ テ ゴ リ に 分 類 し ,著 作 権 物 の 割 合 を 推 定 し て い る .そ の 際 の 調 査 結 果 を図 2に 示 す .し か し , 図 2に 示 さ れ て い る よ う に 集 計 外 と な る フ ァ イ ル が 全 体 の 中 で49%も の 割 合 を 占 め て お り ,半 分 の フ ァ イ ル に 対 し て は 不 明 瞭 な 結 果 に 終 わ っ て い る .2.1.3. 従 来 の コ ン テ ン ツ 分 析 の 課 題
大 井 ら の 研 究 で は , 対 象 と す る P2P フ ァ イ ル 共 有 ネ ッ ト ワ ー ク 内 を 流 通 す る フ ァ イ ル を い く つ か の 拡 張 子 に よ っ て 分 類 し , そ れ ぞ れ の 拡 張 子 が ネ ッ ト ワ ー ク を 占 め る 割 合 を 示 し て い る .一 方 ,ACCS は Winny ネ ッ ト ワ ー ク 上 を 流 通 し て い る フ ァ イ ル 名 を ラ ン ダ ム に 抽 出 し , 人 手 に よ っ て そ れ ら の フ ァ イ ル 名 を 大 ま か な カ テ ゴ リ へ 分 類 し て い る . し か し , ど ち ら の 研 究 も 流 通 し て い る コ ン テ ン ツ の 大 ま か な 性 質 を 知 る こ と は で き て も , 具 体 的 に 何 の フ ァ イ ル が 共 有 さ れ て い る か 知 る こ と は で き な い .2.2. 参 加 ノード数 分 析
P2P フ ァ イ ル 共 有 ネ ッ ト ワ ー ク が ど の 程 度 の ノ ー ド 数 に よ っ て 構 成 さ れ て い る か 調 査 し た 研 究 は 多 数 報 告 さ れ て い る[3][5][6][7]. ま た , 本 稿 で 分 析 の 対 象 と し た Winny ネ ッ ト ワ ー ク に 関 し て の ノ ー ド 数 の 分 析 も 既 に 行 わ れ て い る .全 ノ ー ド 数 の 把 握 が 困 難 なWinny ネ ッ ト ワ ー ク の 規 模 を 推 定 す る た め に , 実 測 に よ っ て 得 ら れ た Winny の 通 信 デ ー タ を 使 用 し , シ ミ ュ レ ー シ ョ ン に よ っ て Winny ネ ッ ト ワ ー ク の 規 模 を 推 定 す る 研 究[12]や , 11 台 の 観 測 装 置 を 用 い て Winny ネ ッ ト ワ ー ク を 監 視 す る こ と に よ っ て 一 意 な ノ ー ド 数 を 算 図 2 Winny に て 流 通 し て い る コ ン テ ン ツ ( 文 献 [10]の 図 2 の デ ー タ か ら 再 構 成 ) 図 1 Winny で 流 通 し て い る 拡 張 子 分 布 ( 文 献 [11]の 図 8 (a)の デ ー タ か ら 再 構 成 )出 す る 方 法 も あ り ,Winny の ノ ー ド 数 の 規 模 は 2006 年 8 月 地 点 で 「 平 日 で 39~ 41 万 , 土 日 で は 43~ 44 万 以 上 の ノ ー ド 数 」 で あ る と 報 告 さ れ て い る[13].
2.3. トラヒック量 分 析
1024 番 以 降 の ポ ー ト を 使 用 し て い る ト ラ ヒ ッ ク を 観 測 す る こ と に よ っ て ,P2P フ ァ イ ル 共 有 ソ フ ト が ど の 程 度 の ト ラ ヒ ッ ク を 発 生 さ せ て い る か を 推 測 す る 研 究 が 行 わ れ て い る[14][15]. し か し , ポ ー ト 番 号 だ け で は 実 際 に そ の 通 信 が P2P に よ る も の か ど う か を 判 別 す る こ と は で き な い . そ こ で[14][15]で は , 通 信 に 用 い ら れ る ト ラ ヒ ッ ク の 特 徴 や , ノ ー ド 間 通 信 の サ ー バ/ク ラ イ ア ン ト 関 係 を 用 い る こ と に よ っ て ,ト ラ ヒ ッ ク が P2P に よ る も の か ど う か を 特 定 す る 方 法 を 提 案 し て い る .3. 関 連 技 術
2.1 で 述 べ た 通 り , 既 存 研 究 で は コ ン テ ン ツ の 詳 細 な 分 布 ま で は 知 る こ と は で き な い . そ こ で 本 稿 で は , 単 語 単 位 の 粒 度 で 対 象 の P2P フ ァ イ ル 共 有 ソ フ ト ネ ッ ト ワ ー ク を 流 通 す る コ ン テ ン ツ の 分 布 を 視 覚 的 に 把 握 す る 手 法 を 提 案 す る .提 案 手 法 で は ,図 3 に 示 す 技 術 を 利 用 す る . 以 下 , 単 語 抽 出 , ク ラ ス タ リ ン グ , デ ー タ の 可 視 化 に 関 わ る そ れ ぞ れ の 技 術 に つ い て 説 明 す る .3.1. 単 語 抽 出
自 然 言 語 処 理 の 分 野 に お い て , 未 知 語 の 抽 出 に つ い て は 広 く 研 究 さ れ て き た[16][17]. 特 に 日 本 や 中 国 に は , 西 欧 の 言 語 と 違 っ て 空 白 の よ う な 明 確 な 単 語 の 境 界 が 用 い ら れ て い な い の で , 機 械 が 単 語 を 特 定 し , 抽 出 す る こ と は 難 し い . 一 般 に は 形 態 素 解 析 と 呼 ば れ る 手 法 に よ り , 辞 書 を 基 に 文 を 単 語 毎 に 区 切 る 必 要 が あ る が , そ の 際 に は 辞 書 に な い 未 知 語 を う ま く 認 識 で き な い 問 題 が あ る . そ の た め , 例 え ば 中 川 ら は 未 知 語 で あ る 専 門 用 語 を 専 門 分 野 コ ー パ ス か ら 抽 出 す る 手 法 を 提 案 し て い る[16]. 中 川 ら の 手 法 は ,「 連 続 す る 単 語 が あ る 場 合 に そ の 単 語 が 出 て く る 順 番 の 確 率 に よ っ て 複 合 名 詞 が 専 門 用 語 で あ る か ど う か を 判 断 す る 」 と い う 考 え 方 に 基 づ い て い る . し か し , 本 稿 の 場 合 は そ も そ も 未 知 語 の 範 囲 が 幅 広 く 事 前 に 辞 書 を 用 意 す る こ と が で き な い . 辞 書 を 用 い ず に 未 知 語 を 抽 出 す る 手 法 は Klein に よ っ て 行 わ れ て い る[17]. Klein は 単 語 抽 出 の 対 象 と す る ド キ ュ メ ン ト の 文 字 列 に 対 し て , 文 字 を 区 切 り 単 位 と す る N-gram を 総 当 た り で 作 成 し て い る .N-gram と は ,あ る 文 字 列 か ら 文 字 や 単 語 な ど を 区 切 り と し て , N 個 連 続 で 切 り 出 し た 並 び の 集 合 の こ と を 指 す . Klein の 提 案 し た ア ル ゴ リ ズ ム は 以 下 の 通 り で あ る . 単 語 候 補 文 字 列 を Sと す る .文 字 列Sの 最 後 尾 へ 任 意 の1 文 字 を 足 し て ,予 め 作 成 し て お い た (Sの 文 字 列 長 +1)-gram の 中 か ら 一 致 す る 文 字 列 を 探 し ,該 当 す る 文 字 列 集 合 Zを 作 成 す る .次 に 対 象 と す る ド キ ュ メ ン ト 中 でSがZの 各 要 素 全 て に 対 し て 状 態 遷 移 す る 確 率 を 調 べ る . 状 態 遷 移 の 確 率 モ デ ル に は 隠 れ マ ル コ フ モ デ ル を 採 用 し て い る . 最 後 に 尤 度 が 高 か っ た も の か ら 順 に 単 語 の 候 補 群 を 作 成 し て い く と い う も の で あ る . 対 象 ド キ ュ メ ン ト の 性 質 に 依 存 し な い 汎 用 性 の 高 い 手 法 と 言 え る 反 面 , 解 析 対 象 と な る ド キ ュ メ ン ト の 文 字 数 や 種 類 が 大 き く な る と 状 態 遷 移 数 の 増 大 に 従 っ て 計 算 量 が 増 え て し ま う と い う 難 点 が あ る .3.2. クラスタリング
ド キ ュ メ ン ト を ク ラ ス タ リ ン グ す る 手 法 に は , 最 短 距 離 法 な ど の 階 層 型 手 法 と ,k-means 法 [18]な ど の 非 階 層 型 手 法 に 大 き く 分 け ら れ る .3.2.1. 階 層 型 ク ラ ス タ リ ン グ
階 層 型 ク ラ ス タ リ ン グ と は , ク ラ ス タ 間 の 距 離 関 数 に 基 づ き , 最 も 距 離 の 近 い 二 つ の ク ラ ス タ を 逐 次 的 に 併 合 す る 手 法 で あ る . そ し て , こ の 併 合 操 作 を 全 て の 対 象 が 一 つ の ク ラ ス タ に 併 合 さ れ る ま で 繰 り 返 す こ と に よ り 処 理 を 完 了 す る . ク ラ ス タ𝐶1と𝐶2の 距 離 関 数𝐷 𝐶1, 𝐶2 の 違 い に よ り 以 下 の よ う な 手 法 に 区 別 で き る . 最 短 距 離 法 𝐷 𝐶1, 𝐶2 =𝑥 min 1∈𝐶1,𝑥2∈𝐶2𝐷 𝑥1, 𝑥2 (3.1) 最 長 距 離 法 𝐷 𝐶1, 𝐶2 =𝑥 max 1∈𝐶1,𝑥2∈𝐶2𝐷 𝑥1, 𝑥2 (3.2) 群 平 均 法 𝐷 𝐶1, 𝐶2 = 1 𝑛1× 𝑛2 𝐷 𝑥𝑥 1, 𝑥2 2∈𝐶2 𝑥1∈𝐶1 (3.3) こ こ で x は 対 象 と な る ド キ ュ メ ン ト を 表 す . こ れ ら の 方 法 は ,任 意 の 対 象 間 の 距 離𝐷 𝑥𝑖, 𝑥𝑗 が 与 え ら れ て い る 場 合 に 適 用 可 能 で あ る . 対 象 が 数 値 ベ ク ト ル で 記 述 さ れ て い る 場 合 に は , ベ ク ト ル 間 の ユ ー ク リ ッ ド 距 離 な ど を 求 め て 適 用 す る . す べ て の 対 象 間 の 距 離 を 計 算 す る の で , 計 算 量 は 少 な く と も𝑂 𝑁2 に な る .3.2.2. 非 階 層 型 ク ラ ス タ リ ン グ 手 法
非 階 層 型 ク ラ ス タ リ ン グ 手 法 と は , 各 デ ー タ を 複 数 の ク ラ ス タ に 分 類 す る 手 法 で あ る . 非 階 層 型 ク ラ ス タ リ ン グ 手 法 と し て 代 表 的 な ア ル ゴ リ ズ ム に , k-means ① 対 象 と す る P2P フ ァ イ ル 共 有 ネ ッ ト ワ ー ク の 単 語 を 機 械 的 に 抽 出 す る . ② ① で 抽 出 し た 単 語 同 士 を ク ラ ス タ リ ン グ す る . ③ ② で 得 た ク ラ ス タ リ ン グ の 結 果 を 平 面 上 に 図 示 す る . 図 3 本 稿 で 要 求 さ れ る 技 術法 [18]が 存 在 す る . 一 般 的 な k-means 法 は , 図 4 に 記 し た 手 順 で 実 行 さ れ る . 一 般 的 な k-means 法 で は ,ク ラ ス タ ベ ク ト ル 𝑐𝑘が 安 定 す る ま で , 分 類 対 象 の ク ラ ス タ へ の 割 り 当 て と ク ラ ス タ ベ ク ト ル の 更 新 と が 反 復 的 に 繰 り 返 さ れ る . こ の 反 復 回 数 をrと す れ ば ,一 般 的 な k-means 法 の 計 算 量 は𝛰 𝑁 × 𝑀 × 𝑘 × 𝑟 と な る .こ こ で Nは 文 書 数 ,Mは 語 数 ( ベ ク ト ル の 次 元 ) で あ る . 階 層 型 ク ラ ス タ リ ン グ 手 法 の 計 算 量 が𝑂 𝑁2 に な っ て し ま う の に 対 し て , k-means 法 の 計 算 量 は 𝛰 𝑁 × 𝑀 × 𝑘 × 𝑟 と 少 な い とい う 利 点 が あ る .し か し ,ク ラ ス タ 数 k を 前 も っ て 与 え る 必 要 が あ り , ま た , ク ラ ス タ の 重 心 の 初 期 ベ ク ト ル 𝑐1, ⋯ , 𝑐𝑘 の 設 定 に よ っ て は 局 所 解 に 陥 っ て し ま い , 正 し く ク ラ ス タ リ ン グ さ れ な い 可 能 性 が あ る . こ の 問 題 を 解 消 す る た め に k-means++法 [19]が 考 案 さ れ た . k-means++は 初 期 ベ ク ト ル の 配 置 を 考 慮 す る も の で , 既 に 置 か れ た ベ ク ト ル の 近 く に 初 期 ベ ク ト ル が 配 置 さ れ る 確 率 を 減 ら し , な る べ く 等 距 離 上 に 初 期 ベ ク ト ル を 配 置 で き る よ う に 改 良 さ れ た も の で あ る . ま た , 適 切 と 思 わ れ る ク ラ ス タ 数 を 自 動 的 に 決 定 す る こ と が で き る x-means[20]と い う 手 法 も 考 案 さ れ て い る .x-means は ,k = 2 と し て 再 帰 的 に k-means 法 を 実 行 す る . ク ラ ス タ の 分 割 前 と 分 割 後 で 情 報 量 規 準 の 一 つ で あ るBIC( Bayesian Information Criterion) を 比 較 し , ク ラ ス タ の 分 割 が 妥 当 と 判 断 さ れ る ま で 分 割 を 続 け , 適 切 な ク ラ ス タ 群 が 構 成 さ れ る .
3.3. データの可 視 化
本 節 で は 階 層 型 デ ー タ を 視 覚 化 す る 有 名 な 手 法 で あ る treemaps と , 視 覚 化 だ け で な く ク ラ ス タ リ ン グ の プ ロ セ ス 自 体 も 受 け 持 つ こ と が で き る 自 己 組 織 写 像 に つ い て 説 明 す る .3.3.1. treemaps
treemaps は 木 構 造 デ ー タ を 視 覚 化 す る 方 法 で あ る . 階 層 型 デ ー タ も 一 種 の 木 構 造 と し て 扱 う こ と が で き る . 特 に 長 方 形 の 領 域 に 区 切 り 階 層 型 デ ー タ を 出 力 す る 方 法 は , こ れ ま で に 多 数 報 告 さ れ て い る[21][22]. い ず れ も ル ー ト ノ ー ド か ら 内 部 ノ ー ド を 再 帰 的 に 辿 っ て い き , 内 部 ノ ー ド の 領 域 を 確 保 し て い っ た 後 に , 辿 っ た 先 が リ ー フ ノ ー ド で あ れ ば そ の 確 保 し た 領 域 を リ ー フ ノ ー ド へ 割 り 当 て る と い う ア ル ゴ リ ズ ム に よ っ て 構 成 さ れ て い る . ま た , リ ー フ ノ ー ド の 領 域 を 長 方 形 で な く ボ ロ ノ イ 図 の よ う な 領 域 を 確 保 し て 木 構 造 の デ ー タ を 視 覚 化 す る voronoi-treemaps[23] と い う 手 法 が Michael ら に よ っ て 考 案 さ れ て い る . リ ー フ の 重 心 を 二 次 元 上 の ど こ に 位 置 に マ ッ ピ ン グ す る か を 決 定 し , ボ ロ ノ イ 図 で 領 域 を 確 保 す る 点 が 前 者 と は 異 な る . 全 て の リ ー フ の 重 心 が 二 次 元 上 に マ ッ ピ ン グ し た 後 , 最 後 に そ の 点 が 持 つ べ き 領 域 の 境 界 線 を 引 く こ と に よ り voronoi-treemaps は 完 了 す る .3.3.2. 自 己 組 織 化 写 像 (Self-organizing-maps)
Kohonen に よ っ て 提 唱 さ れ た 自 己 組 織 化 写 像 (Self-organizing maps, 以 下 SOM)は ニ ュ ー ラ ル ネ ッ ト ワ ー ク を 模 し た 基 本 学 習 ア ル ゴ リ ズ ム の1 つ で あ り , 学 習 し た 結 果 を 様 々 な 形 式 へ マ ッ ピ ン グ で き る . 入 力 層 と 競 合 層 か ら な る2 層 構 造 を 用 い る こ と に よ り 学 習 す る .入 力 層 に はn 次 元 の デ ー タ を 与 え ,競 合 層 で は m 次 元 上 に 配 置 さ れ た ノ ー ド が そ の ま ま 学 習 す る .入 力 層 と 競 合 層 の 次 元 は 自 由 に 設 定 で き る た め , 高 次 元 デ ー タ の 視 覚 化 に よ く 用 い ら れ る . 現 在 で は SOM を 教 師 な し 学 習 の ク ラ ス タ リ ン グ に も 応 用 さ れ て い る .4. 提 案 手 法
本 節 で は ,4.1 節 に お い て 要 求 条 件 を 示 し ,4.2 節 で 本 手 法 の 詳 細 に つ い て 述 べ ,4.3 節 に て 本 手 法 の 性 質 や 適 用 範 囲 つ い て ま と め る .4.1. 要 求 条 件
本 研 究 の 目 的 は P2P ネ ッ ト ワ ー ク を 流 通 し て い る コ ン テ ン ツ を 単 語 単 位 で 調 べ , そ の 結 果 を 視 覚 化 す る こ と で あ る .本 稿 で は 対 象 と す る P2P ネ ッ ト ワ ー ク を 流 通 し て い る フ ァ イ ル 名 全 体 か ら 単 語 を 抽 出 し , そ の 抽 出 し た 単 語 同 士 の 関 連 性 を 求 め て , そ の 結 果 を 図 示 す る プ ロ セ ス を 経 る こ と に よ り こ れ を 実 現 し て い る . そ の 際 に 収 集 す る デ ー タ に 偏 り が あ る と , 結 果 に 偏 り が 生 じ て し ま う の で 注 意 が 必 要 で あ る . ま た , 固 有 名 詞 の 単 語 辞 書 を 予 め 用 意 で き な い も の と す る . そ の た め に は 図 5 に 示 す 要 求 条 件 を 満 た さ な く て は な ら な い . ① 分 析 す る デ ー タ に 偏 り が 生 じ な い よ う に す る た め に , P2P ネ ッ ト ワ ー ク 全 体 か ら フ ァ イ ル 名 を 収 集 す る . ② 収 集 し た フ ァ イ ル 名 か ら 単 語 を 抽 出 す る . ③ 抽 出 さ れ た 単 語 同 士 の 距 離 を 定 義 す る 関 数 が 存 在 し ,単 語 同 士 の 関 連 性 の 強 さ が 定 義 で き る . ④ 得 ら れ た 単 語 同 士 の 関 連 性 を 平 面 上 に マ ッ ピ ン グ す る . 図 5 コ ン テ ン ツ 分 析 の た め の 要 求 条 件 ① ク ラ ス タ の 個 数 k を 決 め , 各 ク ラ ス タ の 初 期 ベ ク ト ル を 作 成 す る 𝑐1, ⋯ , 𝑐k . ② N 件 の 分 類 対 象 を , そ れ ぞ れ , 最 も 近 い ベ ク ト ル𝑐𝑘に 従 っ て 分 類 し , そ の ク ラ ス タ に 割 り 当 て て , ベ ク ト ル 𝑐𝑘を 更 新 す る .③
も し ベ ク ト ル𝑐𝑘が 変 化 し な く な れ ば 処 理 を 終 了 し ,そ う で な け れ ば 2 に 戻 る. 図 4 k-means4.2. 提 案 手 法 詳 細
本 節 で は 4.1 で 述 べ た 条 件 を 満 た す た め の 詳 細 な プ ロ セ ス を 記 載 す る . 始 め に 提 案 手 法 の 流 れ を 述 べ た 後 に , そ の プ ロ セ ス の 中 で 用 い ら れ て い る 技 術 の 詳 細 に つ い て 説 明 す る .4.2.1. 提 案 手 法 の 流 れ
P2P ネ ッ ト ワ ー ク 上 で 流 通 し て い る コ ン テ ン ツ を 視 覚 的 に 把 握 す る た め に は ,図 5 で 示 し た 要 求 条 件 を 満 た し つ つ い く つ か の プ ロ セ ス を 経 る 必 要 が あ る . そ こ で ,本 節 で は 図 6 に 提 案 手 法 全 体 の 流 れ を 示 し ,各 プ ロ セ ス が 図 5 で 示 し た 要 求 条 件 と ど の よ う に 対 応 す る の か を 説 明 し た 後 に , 各 プ ロ セ ス の 概 要 に つ い て 説 明 す る . 各 プ ロ セ ス の 詳 細 な 手 順 に つ い て は 4.2.2~ 4.2.5 で 述 べ る . 全 体 の 流 れ と し て は ,ま ず 対 象 と す る P2P フ ァ イ ル 共 有 ソ フ ト ネ ッ ト ワ ー ク を 流 れ て い る コ ン テ ン ツ の フ ァ イ ル 名 を 万 遍 無 く 収 集 す る . 本 稿 で は 実 際 に Winny ネ ッ ト ワ ー ク を 流 通 し て い る イ ン デ ッ ク ス 情 報 を 自 動 的 に 収 集 す る プ ロ グ ラ ム を 作 成 す る こ と に よ り 解 決 し て い る(図 5 ①). 次 に そ の 得 ら れ た フ ァ イ ル 名 の 情 報 か ら ,そ の P2P フ ァ イ ル 共 有 ソ フ ト 内 で 単 語 と し て 扱 わ れ て い る 語 を 機 械 的 に 抽 出 す る(図 5 ②).つ ま り ,こ れ に よ り 対 象 と す る P2P フ ァ イ ル 共 有 ソ フ ト に 特 化 し た 単 語 リ ス トD
を 作 成 す る こ と が で き る . 次 に , フ ァ イ ル 名 単 位 で の 単 語 同 士 の 共 起 数 を 求 め る .い ま ,D
のi
番 目 の 要 素 を𝑑𝑖,単 語𝑑𝑖と𝑑𝑗と の 共 起 回 数 を𝐶(𝑑𝑖, 𝑑𝑗)と表 現 す る と す る .ま た ,単 語 wが 他 の 単 語 と 共 起 し た 回 数 の 合 計を𝑆𝑢𝑚(𝑤)と す る と ,D
の 要 素 数 をN
と し て 式(4.1)の よ う に 表 現 で き る . 𝑆𝑢𝑚(𝑑𝑖) = 𝐶(𝑑𝑖, 𝑑𝑗) 𝑁−1 𝑘=0,𝑖≠𝑘 (4.1) 次 に , 各 単 語 が 他 の 単 語 と 共 起 す る 確 率 ベ ク ト ル を 定 義 す る . 単 語𝑑𝑖の ベ ク ト ル 成 分𝒗𝒊はN
次 元 で 構 成 さ れ , 式(4.2)に よ り 計 算 す る . 𝒗𝒊= 𝐶 𝑑𝑖, 𝑑0 , 𝐶 𝑑𝑖, 𝑑1 , 𝐶 𝑑𝑖, 𝑑2 … 𝐶 𝑑𝑖, 𝑑𝑁−1 /𝑠𝑢𝑚(𝑑𝑖) (4.2) 以 上 の 計 算 に よ り , 各 単 語 の ベ ク ト ル が 定 義 さ れ , 単 語 同 士 の ベ ク ト ル 成 分 に よ っ て 距 離 を 定 義 で き る (図 5 ③ ).な お ,本 稿 で は Ward 法 に よ っ て 単 語 同 士 の 距 離 を 定 義 し て い る .Ward 法 で は ク ラ ス タ 𝑃と𝑄の 間 の 距 離distance 𝑃, 𝑄 を 以 下 の 通 り 定 義 す る . 𝑑𝑖𝑠tance 𝑃, 𝑄 = 𝐸 𝑃 ∪ 𝑄 − 𝐸 𝑃 − 𝐸 𝑄 (4.3) こ こ でE 𝑋 は , 𝑋の す べ て の 点 か ら 𝑋の 重 心 ま で の 距 離 の 二 乗 の 総 和 で あ る .Ward 法 は 他 の 距 離 関 数 に 比 べ 分 類 感 度 が 高 い と い わ れ て い る . 以 上 の プ ロ セ ス に よ り 単 語 同 士 の 距 離 が 計 算 で き る の で , こ れ を 基 に 階 層 型 ク ラ ス タ リ ン グ を 行 い , 類 似 し た 単 語 同 士 や 性 質 が 近 い 単 語 同 士 を ま と め る . 最 後 に ク ラ ス タ リ ン グ に よ っ て 得 ら れ た 階 層 型 構 造 の デ ー タ を voronoi-treem aps の よ う に 視 覚 化 す る こ と で , 本 稿 の 最 終 目 的 を 達 成 す る こ と が で き る(図 5 ④ )4.2.2. Winny ネ ッ ト ワ ー ク 全 体 の キ ー 収 集
Winny ネ ッ ト ワ ー ク 上 の コ ン テ ン ツ を 分 析 す る た め に は , Winny ネ ッ ト ワ ー ク で 流 通 し て い る フ ァ イ ル の フ ァ イ ル 名 を 偏 り な く 取 得 す る 必 要 が あ る . そ こ で Winny ネ ッ ト ワ ー ク に 参 加 し て い る 全 て の ノ ー ド を 満 遍 な く 巡 回 す る ク ロ ー ラ ー プ ロ グ ラ ム を 作 成 し た . ク ロ ー ラ ー は Winny の プ ロ ト コ ル に 則 っ て Winny の ピ ア と 通 信 を 試 み , フ ァ イ ル の イ ン デ ッ ク ス 情 報 を 取 得 す る . 実 際 に フ ァ イ ル 転 送 に 関 わ る こ と は 何 も せ ず , Winny ネ ッ ト ワ ー ク の キ ー を 収 集 し 続 け る プ ロ グ ラ ム で あ る . こ の プ ロ グ ラ ム を 連 続 稼 働 す る こ と に よ っ て 、 一 定 期 間 に お け る 流 通 フ ァ イ ル の フ ァ イ ル 名 情 報 を 収 集 し た .4.2.3. Winny で 用 い ら れ て い る 単 語 の 抽 出 方 法
Winny ネ ッ ト ワ ー ク で 得 ら れ る フ ァ イ ル に つ け ら れ て い る フ ァ イ ル 名 は ,他 の 一 般 文 書 と 比 べ て 図 7 に 示 す 特 徴 を 有 し て い る も の が 多 い . 以 上 の 3 つ の 特 徴 を 利 用 す る こ と に よ り , Winny ネ ッ ト ワ ー ク 上 の 単 語 を 高 速 に 抽 出 で き る ヒ ュ ー リ ス テ ィ ッ ク な 手 法 を 図 8 に 示 す . 図 8 単 語 抽 出 と 前 処 理 フ ロ ー チ ャ ー ト 1. 同 じ フ ァ イ ル が 多 く 存 在 す る . 2. 区 切 り 文 字 と し て ス ペ ー ス が 入 っ て い る こ と が 多 く , 全 体 と し て 長 く て も 10 文 字 前 後 で ほ と ん ど の フ ァ イ ル 名 が ス ペ ー ス で 区 切 ら れ る . 3. 比 較 的 短 い 単 語 同 士 の 連 続 に よ っ て 構 成 さ れ る .助 詞 や 副 助 詞 を あ ま り 含 ま な い . 図 7 Winny ネ ッ ト ワ ー ク 上 の フ ァ イ ル 名 の 特 徴 図 6 提 案 手 法 フ ロ ー チ ャ ー ト Start P2Pネットワーク全体のファイル名収集 辞書を作成(全単語抽出) クラスタリング結果を可視化するよう出力 End 単語同士の共起率を求めクラスタリング図 9 と 図 10 に 各 step の 説 明 を 示 す . な お , 文 字 列
S
が 文 字 列Z
の 部 分 文 字 列 で あ る と い う こ と は ,S
がZ
に 含 ま れ る 文 字 列 で あ る こ と を 意 味 す る . な お , 本 実 験 で は 4000 万 の フ ァ イ ル 名 を 対 象 に 実 験 を 行 っ た . フ ァ イ ル 名 の 重 複 を 取 り 除 い た 結 果 ユ ニ ー ク な フ ァ イ ル 名 は 300 万 程 で あ り , 最 も 多 い も の で は 1 つ の フ ァ イ ル 名 で 10 万 も の 重 複 が 見 ら れ た . 実 際 の 実 験 で は α =10000,β =0.3 に 設 定 す る こ と に よ り , 5164 個 の 単 語 と 見 な さ れ る 語 を 抽 出 し た .4.2.4. 関 連 す る 単 語 の グ ル ー プ 化
4.2.3 ま で の プ ロ セ ス に よ り ,Winny 上 で の 単 語 を 抽 出 す る こ と が で き た . 単 語 を 定 義 す る こ と に よ り , Winny の フ ァ イ ル 名 か ら 単 語 同 士 の 共 起 率 を 求 め る こ と が で き る . 図 11 で ク ラ ス タ リ ン グ の 結 果 を 得 ら れ る ま で の ス テ ッ プ を 説 明 す る . な お ,step3,step4 で 用 い る ク ラ ス タ 間 の 距 離 は (4.3) 式 の Ward 法 を 用 い て 計 算 し て い る .4.2.5. デ ー タ の 視 覚 化
階 層 型 ク ラ ス タ リ ン グ に よ っ て 得 ら れ た 階 層 型 構 造 を 持 っ た デ ー タ を ,voronoi-treemaps の 考 え 方 を 用 い て 出 力 す る . 本 稿 で は , 単 語 同 士 の 距 離 が 近 く 同 一 の ク ラ ス タ に 属 す る と み な さ れ た 単 語 同 士 は 同 一 色 で 表 示 す る よ う に 考 案 し て い る . あ る ク ラ ス タCを 示 す 色 はCを 構 成 す る 単 語 𝑠(𝑠 ∈C)の RGB 値 の 平 均 値 に よ っ て 定 義 さ れ る .C を 構 成 す る𝑠の 色 は , Winny ネ ッ ト ワ ー ク 上 で の sの 出 現 頻 度𝛼と ,𝑠を ク エ リ と し て Yahoo! Japan で 検 索 し た と き の ヒ ッ ト 件 数𝛽の 比 率 𝛾(= 𝛼/𝛽)に よ っ て 決 定 さ れ る . 本 稿 で は ,𝛾の 値 が 大 き い , つ ま り Web 上 で の ヒ ッ ト 件 数𝛽に 対 し , Winny 上 で の 出 現 回 数 𝛼の 比 率 が 大 き い 値 を よ りWinny に 特 徴 的 な 語 と し て 考 え , 赤 色 に 近 く な る よ う にSの 色 が 定 義 さ れ る . 逆 に𝛾の 値 が 小 さ い ,つ ま り Web 上 で の ヒ ッ ト 件 数 𝛽に 対 し ,Winny 上 で の 出 現 回 数 𝛼の 比 率が 小 さ い 値 を よ り 一 般 的 に 用 い ら れ る 語 と し て 青 色 に 近 く な る よ う に𝑠の 色 が 定 義 し さ れ る . そ し て , あ ま り ど ち ら に 偏 っ て い る と も 言 え な い 単 語 は𝑠の 色 が 緑 色 に 近 く な る よ う に 以 下 に 示 さ れ る 式 に よ っ て そ れ ぞ れ 定 義 さ れ る . な お , 式 中 で 用 い ら れ る 定 数Mは 全 て の 単 語 の 平 均 出 現 回 数 で あ る . 𝑅 = min(255,128 × 𝑀 × 𝛾) (5.1) 𝐵 = min(255,128 × 𝑀 ×1 𝛾) (5.2) 𝐺 = min(0,128 − 𝑎𝑏𝑠 𝑅 − 𝐵 ) (5.3) 𝑚𝑖 𝑛 𝑎, 𝑏 は 𝑎と 𝑏の 2 つ で 最 小 の 値 を 返 す 関 数 で あ り, 𝑚𝑎𝑥 𝑎, 𝑏 は 𝑎と 𝑏の 2 つ で 最 大 の 値 を 返 す 関 数 で あ る . ま た ,abs(x)は 𝑥の 絶 対 値 を 返 す 関 数 で あ る .4.3. 本 手 法 が適 用 される範 囲
本 節 で 説 明 し た 各 プ ロ セ ス を 経 る こ と に よ っ て 最 終 的 に コ ン テ ン ツ の 分 布 を 示 し た 平 面 図 を 得 る こ と が step1. 4.2.3 で 抽 出 し た 任 意 の 2 単 語 が , 収 集 さ れ た フ ァ イ ル 名 上 で 共 起 す る 回 数 を カ ウ ン ト す る .こ れ を 全 て の 単 語 の 組 み 合 わ せ に 対 し て 行 う . step2. 単 語 の 共 起 回 数 で は , 単 語 自 体 の 出 現 頻 度 が 大 き く 異 な る 単 語 同 士 で は ,同 様 の 使 わ れ 方 を し て い て も ,距 離 の 差 が 開 い て し ま う .そ こ で ,共 起 回 数 ベ ク ト ル を 正 規 化 す る こ と で ,マ イ ナ ー な 言 い 回 し の 単 語 で も 同 様 な 使 わ れ 方 を し て い る 他 の 単 語 と 距 離 を 近 く す る こ と が で き る . step3. step2 で 正 規 化 さ れ た 共 起 率 ベ ク ト ル を 用 い て 階 層 型 ク ラ ス タ リ ン グ を 実 行 す る . step4. ク ラ ス タ 間 距 離 が γ 以 内 同 士 の 類 似 度 が 高 い 単 語 同 士 を 同 一 ク ラ ス タ と し て 結 合 す る . 図 11 ク ラ ス タ リ ン グ ス テ ッ プ stepA. 収 集 し た フ ァ イ ル 名 の 文 字 列 か ら 形 成 さ れ る 部 分 文 字 列 の 全 て の パ タ ー ン を 作 成 す る .作 成 さ れ た 部 分 文 字 列 群 が そ れ ぞ れ 単 語 候 補 と な る . stepB. 作 成 さ れ た 部 分 文 字 列 全 て に 対 し て , 全 て の フ ァ イ ル 名 か ら 出 現 回 数 を カ ウ ン ト し ,全 て の 部 分 文 字 列 か ら 構 成 さ れ る prefix-tree を 作 成 す る .次 に 作 成 さ れ た 部 分 文 字 列 全 て に 対 し て stepC 以 降 を 行 う . こ の 際 に 単 語 候 補 と な っ て い る 部 分 文 字 列 をS
と す る . stepC.S
が 単 語 の 候 補 と な り 得 る か ど う か を ,Sの 出 現 回 数t
に 応 じ て α を 閾 値 と し て 判 断 す る . stepD. prefix-tree の 中 か ら ,Sに 任 意 の 1 文 字 を 足 し た 場 合 存 在 す る リ ー フ が あ る か ど う か を 探 す . 存 在 し な け れ ばS
を 単 語 で あ る と 判 断 し , 存 在 す る な ら ば stepE へ 進 む stepE. prefix-tree か らSに 任 意 の 1 文 字 を 足 し た も の の う ち , 出 現 回 数 が 最 大 も の を 探 し そ の 出 現 回 数 をu
と す る . 次 にt
に 対 す るu
の 割 合 を 計 算 し ,そ の 割 合 が 閾 値 β 以 下 な ら ばSを 単 語 と 判 断 し , β 以 上 な ら ば 単 語 で な い と 判 断 す る . 図 10 単 語 抽 出 ス テ ッ プ step1. フ ァ イ ル 名 の 中 に は , 制 御 文 字 (ASCII コ ー ド で 1~ 31)や 特 殊 文 字 な ど 無 効 な 文 字 を 含 む も の が 僅 か な が ら 存 在 す る .そ れ ら 無 効 な 文 字 が 存 在 し た 場 合 ,空 白 文 字 へ 変 更 す る . step2. 大 文 字 小 文 字 や 全 角 半 角 の 異 な る 単 語 同 士 は 通 常 同 じ 意 味 を 表 す .そ の た め ,英 字 や 記 号 の 大 文 字 小 文 字 ,カ ナ 文 字 や 空 白 文 字 の 全 角 半 角 の 形 式 を 統 一 す る . step3. 重 複 フ ァ イ ル 名 を カ ウ ン ト し て お く . 同 じ フ ァ イ ル 名 を 繰 り 返 し 読 み 込 ま な く て も よ く な り ,後 の 処 理 を 大 幅 に 高 速 化 で き る . step4. 実 際 に 単 語 の 抽 出 を 行 う プ ロ セ ス へ と 移 行 す る . 図 10 に 記 す stepA~ stepE を 行 う こ と で , 単 語 を 機 械 的 に 抽 出 す る こ と が で き る . 図 9 前 処 理 ス テ ッ プで き る . 特 に 4.2.3 で 説 明 し た 単 語 の 抽 出 方 法 は 本 稿 独 自 の ア ル ゴ リ ズ ム で あ り ,P2P ネ ッ ト ワ ー ク で 流 通 す る フ ァ イ ル 名 の 付 け ら れ 方 の 特 性 を 利 用 し た 方 法 と な っ て い る .ま た ,西 欧 な ど の 文 化 圏 でP2P フ ァ イ ル 共 有 ソ フ ト ネ ッ ト ワ ー ク を 流 通 し て い る コ ン テ ン ツ を 解 析 の 対 象 と す る 場 合 に は , フ ァ イ ル 名 を 空 白 文 字 で 区 切 っ て 単 語 と す る よ う に 単 語 抽 出 の ア ル ゴ リ ズ ム の 部 分 を 変 更 す る こ と で , 本 手 法 が そ の ま ま 適 用 で き る と 考 え ら れ る .
5. 結 果
本 稿 で は 2009 年 7 月 1 日 の 24 時 間 に Winny ネ ッ ト ワ ー ク か ら 収 集 し た 4000 万 個 の イ ン デ ッ ク ス 情 報 に 対 し て 分 析 を 行 っ た .5.1. 単 語 抽 出 について
イ ン デ ッ ク ス 情 報 か ら 得 ら れ た 4000 万 フ ァ イ ル 名 を 対 象 と し 4 . 2 . 3 で 使 用 す る 閾 値 α , 𝛽 を (𝛼, 𝛽) = (10000,0.3)と し て 実 験 を 行 っ た と こ ろ 5164 単 語 を 抽 出 し た . α の 値 を 小 さ く 設 定 し す ぎ る と , 余 り に も マ イ ナ ー な 単 語 や フ ァ イ ル 名 の 誤 字 に よ る 単 語 が 抽 出 さ れ て し ま う . ま た ,𝛽の 値 を 大 き く し す ぎ る と 単 語 抽 出 の 精 度 が 落 ち て し ま い , 単 語 で な い も の も 単 語 と し て 抽 出 さ れ る . 本 手 法 で 抽 出 し た 単 語 の 中 に は 多 く の 固 有 名 詞 が 含 ま れ て お り ,Mecab[24]な ど の 従 来 の 日 本 語 形 態 素 解 析 器 で は 抽 出 す る こ と が で き な い 多 く の 名 詞 を 抽 出 す る こ と が で き た .5.2. クラスタリングの出 力 結 果 について
フ ァ イ ル 名 を 基 と し て , 単 語 の 共 起 率 に 基 づ い て 階 層 型 ク ラ ス タ リ ン グ を 行 っ た 結 果 , 同 じ よ う な 系 統 , あ る い は 似 た よ う な 意 味 を 持 つ 単 語 同 士 が 近 い ク ラ ス タ 位 置 を 得 る こ と が で き た . 図 12 に 本 実 験 で 抽 出 さ れ た 単 語 5164 個 の う ち , β の 値 が 小 さ い 順 に 500 個 を 選 ん で ク ラ ス タ リ ン グ し た 結 果 を 示 す . 同 じ 色 で 表 示 さ れ て い る 単 語 は 同 じ ク ラ ス タ に 属 し て い る こ と を 意 味 す る .ま た ,図 13,図 14 に 図 12 中 の ① , ② の そ れ ぞ れ で 示 さ れ た 部 分 を 拡 大 し た 様 子 を 示 す . ① の ク ラ ス タ に 含 ま れ て い る 単 語 は , 日 本 の 有 名 な 歌 手 名 ま た は 歌 手 グ ル ー プ と い う 関 連 性 を 持 っ た 単 語 群 で あ り , 関 連 性 が あ る 単 語 同 士 が 同 一 の ク ラ ス タ に 分 類 さ れ て い る こ と を 示 し て い る . 図 14 は ② で 示 さ れ た ク ラ ス タ が 同 人 に 関 係 す る 単 語 に よ っ て 構 成 さ れ て い る こ と を 示 し て い る . ③ は ア ダ ル ト 関 連 の 単 語 に よ っ て , ④ は 同 人 誌 , ア ニ メ に 関 連 す る 単 語 に よ っ て ,⑤ は「 同 人 誌 」「 ア プ リ 」「game」な ど と い っ た , フ ァ イ ル の 種 類 を 表 す タ グ 情 報 に よ っ て 構 成 さ れ て い る .図 14 同
人 関 連 で 構 成 さ れ る ク ラ ス タ②
図 13 歌 手 で 構 成 さ れ る ク ラ ス タ①
図 12 ク ラ ス タ リ ン グ 結 果 (500word)①
②
③
④
⑤
6. お わ り に
本 稿 で は ,P2P フ ァ イ ル 共 有 ネ ッ ト ワ ー ク 上 を 流 通 す る コ ン テ ン ツ の 分 類 を , 網 羅 的 か つ 視 覚 的 に 把 握 す る 手 法 を 提 案 し た .ま た ,実 際 に Winny ネ ッ ト ワ ー ク を 解 析 対 象 と す る こ と に よ り , 提 案 手 法 が 有 効 で あ る こ と を 示 し , 既 存 研 究 よ り も 粒 度 の 細 か い コ ン テ ン ツ の 分 析 結 果 を 取 得 す る こ と が で き た . 今 後 の 課 題 と し て は , ク ラ ス タ リ ン グ の 結 果 を よ り 直 感 的 に 理 解 で き る よ う に 表 示 方 法 を 改 善 す る こ と が 考 え ら れ る .文 献
[1] Clip2: “The Gnutella Protocol Specification v0.4”, http://www9.limewire.com/developer/gnutella_prot ocol_0.4.pdf
[2] BitTorrent:“BitTorrent Home Page”, http://www.bit torrent.com/
[3] Liang,J.,Kumar,R.and Ross, K.: “The FastTrack O verlay: A Measurement Study” Computer Network s Journal,Vol50,No6,pp.842 -858 2006
[4] Overnet: “Overnet.org”, http://www.overnet.org/ [5] J. A. Pouwelse, P. Garbacki, D. H. J. Epema and
H. J. Sips: “The Bittorrent P2P File -sharing Sys tem: Measurements and Analysis”, Proceedings of the 4th Internatio nal Workshop on Peer-To-Peer Systems, pp.1-6, 2005Michael Balzer,M : “Voronoi Treemaps”, Proceedings / IEEE Symposium on I nformation Visualization, pp49, 2005
[6] A. H. Rasti, D. Stutzbach and R. Rejaie: “On th e Long-term Evolution of the Two -Tier Gnutella Overlay”, Proceedings of the 9th IEEE Global Int ernet Symposium, pp.1 -6, 2006.
[7] M. Steiner, E. W. Biersack and T. Ennajjary: “A ctively Monitoring Peers in KAD”, Proceedings o f the 6th International Workshop on Peer-To-Peer Systems, pp.1-6, 2007. [8] NetAgent:“Winny と は ? ”, http://forensic.netagent. co.jp/winny_what.html [9] NetAgent:“Share と は ? ”, http://forensic.netagent.c o.jp/share_what.html [10] (社 )コ ン ピ ュ ー タ ソ フ ト ウ ェ ア 著 作 権 協 会 :“イ ン タ ー ネ ッ ト 上 で 流 通 し て い る 違 法 コ ン テ ン ツ の 実 態 に つ い て”,第 8期 第 1回 法 制 問 題 小 委 員 会 ,pp. 1-7,2008.http://www.bunka.go.jp/chosakuken/sing ikai/housei/h20_08/pdf/sanko_3_2.pdf [11] 大 井 恵 太 , 亀 井 聡 , 森 達 哉 :“P 2Pフ ァ イ ル 共 有 に お け る コ ン テ ン ツ 分 析”, 情 報 処 理 学 会 報 告 マ ル チ メ デ ィ ア 通 信 と 分 散 処 理 研 究 会 報 告 ,Vol.2003, No.87, pp.17-24, 2003. [12] 蜂 須 賀 大 紀 , 大 坐 畠 智 , 川 島 幸 之 助 :“ピ ュ ア P2P ネ ッ ト ワ ー ク 構 成 ピ ア 数 推 定 法 の 一 検 討”,電 子 情 報 通 信 学 会 技 術 研 究 報 告 , Vol.105, No.12, pp.1-4, 2005. [13] NetAgent:“Winny ノ ー ド 数 の 推 移 ”,http://www.one pointwall.jp/winny/winny-node.html [14] 大 坐 畠 智 , 鈴 木 秀 章 , 萩 原 洋 一 , 寺 田 松 昭 , 川 島 幸 之 助 :“パ ッ シ ブ /ア ク テ ィ ブ 検 知 を 用 い た P2Pト ラ ヒ ッ ク 特 定 法”, 情 報 処 理 学 会 研 究 報 告 分 散 シ ス テ ム /イ ン タ ー ネ ッ ト 運 用 技 術 , Vol.2005, No.3 1, pp.79-84, 2005. [15] 松 田 崇 , 中 村 文 隆 , 若 原 恭 , 田 中 良 明 :“P2P 弁 別 の た め の ト ラ ヒ ッ ク 特 徴 量 の 提 案”,電 子 情 報 通 信 学 会 技 術 研 究 報 告 , Vol.105, No.12, pp.5-8, 200 5. [16] 中 川 裕 志 , 湯 本 紘 彰 , 森 辰 則 :“出 現 頻 度 と 連 接 頻 度 に 基 づ く 専 門 用 語 抽 出”,自 然 言 語 処 理 ,Vol.10, No.1, pp.27-45, 2003.
[17] D. Klein, J. Smarr, H. Nguyen and C. D. Manni ng: “Named Entity Recognition with Character-Le vel Models”, Proceedings of the 7th Conference on Natural Language Learning, pp.180-183, 2003. [18] R. O. Duda, P. E. Hart and D. G. Stork: “Patter n Classification (2nd ed.)”, Wiley Interscience, p. 680, 2001.
[19] D. Arthur and S. Vassilvitskii: “k -means++: The Advantages of Careful Seeding”, Proceedings of t he 18th Annual ACM -SIAM Symposium on Discr ete Algorithms, pp.1027 -1035, 2007.
[20] D. Palleg and A. W. Moore: “X -means: Extendin g K-means with Efficient Estimation of the Num ber of Clusters”, Proceedings of the 17th Internat ional Conference on Machine Learning, pp.727 -73 4, 2000.
[21] B. Shneiderman: “Tree Visualization with Tree -M aps: 2-d Space-Filling Approach”, ACM Transacti ons on Graphics, Vol.11, No.1, pp.92 -99, 1992. [22] M. Bruls, K. Huizing and J. J. van Wijk: “Squar
ified Treemaps”, Proceedings of the Joint Eurogra phics and IEEE TCV G Symposium o n Visualizati on, pp.33-42, 1999.
[23] M. Balzer and O. Deussen: “Voronoi Treemaps”, Proceedings of the 2005 IEEE Symposium on Inf ormation Visualization, pp.49 -56, 2005.
[24] Mecab: “Yet Another Part -of-Speech and Morphol ogical Analyzer”, http://mecab.sourceforge.net/