• 検索結果がありません。

本章 背景

ドキュメント内 居住地推定法 基 (ページ 67-71)

Distance on the Graph [hop]

6.1 本章 背景

居住地 推定 、 間 関係 表 利用

[Jurgens 15]。 仮定 、 上

同士 地理的 距離 近 。 、Rahimi 、多

、居住地 推定 存

在 明 [Rahimi 15]。 推定 難

Celebrity 呼 。 、Ebrahimi 、 Celebrity 推定 難

、 相手 地理的 広 散 Global celebrity 推定 難

、Celebrity 明 [Ebrahimi 18]。我々 、

上 近 位置 、地理的 近 位置

関係 多 持 、何 的特徴 考 。本章 、

的特徴 中心性指標 用 、居住地推定 難

特徴 分析 。次数中心性 PageRank [Page 98], HITS [Kleinberg 99] 中心性

指標 、 用 [Weng 10,山口 11, Chien 14]、周囲

似 属性値 持 関連 考 。

本章 、日本 Twitter 対象 、複数 中心性指標 持 友人

居住地 類似性 、 関係 分析 。 結果、多数 友人

居住地 共有 、PageRank HITS Authority Hub 分布 違

。加 、Authority Hub 2種類 存在

HITS 仮定 、全 同質 考 、Twitter

性質 合 。

第6章 中心性 居住地推定性能 60

6.2

本節 、分析 用 述 。 居住地

6.2.1 居住地

主 居住地周辺 投稿 考 、主 位置情報付 投

稿 場所 居住地 。具体的 、位置情報付 付与

地理座標(coordinates) 市区町村 照合 、最 投稿回数

多 居住地 。Twitter Streaming API 用 2014年 投

稿 日本 包含 矩形*1内 位置情報付 収集 。 、総務省統

計局 境界 *2 用 、 位置情報付 含 地理座標

(coordinates) 含 日本 市区町村 照合 。

付与 居住地 正確 上 、同 5回以上投稿

絞 込 、 最 多 投稿 居住地 付与

。 結果、471,761 対 1873種類 居住地 付与 。

6.2.2

構築 、居住地 付与 関係 用

。居住地 付与 集合 集合

2015年7月 収集 。 A B 、 A

B 方向 有向 作 、 構築 、居住地 付与

除外 。

収集 、471,761 ( ) 8,295,355 含

構築 。 含 居住地 付与

。各 平均 数 17.58 、居住地 付与 相手

平均相互 数 13.2 。 、471,761 42,316

持 孤立 。

*1北緯20 50度、東経110 160 範囲。

*2https://www.e-stat.go.jp/ (viewed 2020-12-02)

第6章 中心性 居住地推定性能 61

6.3 分析方法

持 中心性 値 友人 同 値 持 傾向 関係 分析 。 中心性 値 計算 説明 、次 傾向 測 方 説明 。 、同 値 持 傾向 中心性 値 偏 計算 。

6.3.1 中心性指標

中心性指標 、入次数中心性、出次数中心性、PageRank [Page 99]HITS

[Kleinberg 99] 計算 Authority Hub 用 。中心性指標

( ) 計算 値 。

入次数中心性 、各 居住地 付与 数

、 数 多 大 値 持 。出次数中心性 入次数中心性

反対 、各 居住地 付与 数

、 数 多 大 値 持 。無向 次数 先行研

究 [Rahimi 15, Ebrahimi 18] Celebrity(有名人) 除外 際 用

指標 、有向 用 本研究 入次数 出次数 分析 用 。

PageRank 入次数中心性 似 、 大 値 持

値 大 。PageRank

、 中心性 値 高

期待 。先行研究 [Kwak 10] 、影響力 発見

PageRank 使

Authority Hub 、HITS 同時 計算 値 。

Au-thority Hub 高 高 、Hub Authority 高

高 定義 指標 。一般的 、Authority

多 高 、Hub 多

高 。HITS PageRank 共 際 用

[Chien 14]。我々 情報配信元 多

(Authority 高 ) 、情報収集 目的 良 情報源 多 知

(Hub 高 ) 存在 仮定 HITS 用 。 中心性指標 、

6.2.2節 構築 用 、NetworkX*3 計算 。計算 際

値 用 。

*3https://networkx.org/(viewed 2020-12-02)

第6章 中心性 居住地推定性能 62

6.3.2 友人 居住地 類似性

友人 同 値 持 傾向 測 、友人 居住地 類似性 用 。友人 居住 地 類似性 、 用 居住地推定手法 [Davis Jr. 11] 居

住地 正 推定 判定 。Davis Jr. 提案 居住地推定手法 、

友人 持 居住地 中 最 出現頻度 高 居住地 推定 。 手法 推定結果 用 、次 3 分類 (a) 居住 地 正 推定 easy 、(b) 居住地 誤 推定

hard 、(c) 手 居住地 推定

unknown 。 、(a)多数 友人 同 居住地 持

、(b) 多数 友人 同 居住地 持 、

(c) 手 (友人) 類似度 測 。

本章 、相互 関係 友人 。 、居住

地推定 、6.2.2節 構築 、相互 存在 場合

取 出 無向 利用 。居住地推定 正 正確 一致

判定 、評価対象 隠 他

推定 用 leave-one-out交差検証 評価 。推定 本来

正確 一致 easy 、誤 推定 hard

、手 推定 unknown

分類 。

6.3.3 偏 度合

集合U V 対 中心性 分布 次 計算 。 、総 数 N =|U|、中心性 値 区間i : [xi, xi+1) 含 数 ni 。 、 区間i 含 割合f(i;U) ni/Nf(i;U) 分布 呼 。

、 集合V 対 分布 計算 。 、友人 類似度

分 対 分布 計算 。 、友人

類似度 分 、 集合 対 偏 明

、 分布 差 次 方法 計算 。区間 i 対応

集合V 分布 値 f(i;V) U 区間i 対応 分布 値 f(i;U) 。 、偏 度合 分布 log10(f(i;U)/f(i;V))

定義 。 偏 度合 分布 値 、区間i

区間 割合 、 集合 計算 割

第6章 中心性 居住地推定性能 63

100 101 102 103 104

In-degree 0.0

0.1 0.2 0.3 0.4 0.5

Percentage of users

(a) easy (b) hard (c) unknown median Overall

(a) 分布(入次数中心性)

100 101 102 103

In-degree 0.6

0.4 0.2 0.0 0.2

Ratio

(a) easy (b) hard Overall median

(b) 偏 度合 分布(入次数中心性)

100 101 102 103 104

Out-degree 0.00

0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16

Percentage of users

(a) easy (b) hard (c) unknown median Overall

(c) 分布(出次数中心性)

100 101 102 103 104

Out-degree 0.6

0.5 0.4 0.3 0.2 0.1 0.0 0.1 0.2

Ratio

(a) easy (b) hard Overall median

(d) 偏 度合 分布(出次数中心性)

図6.1: 入次数中心性 出次数中心性 分布

合 対 大 正 値、小 負 値 。偏 度合 分布 値 絶対値

、比較 分布間 差 大 大 。

ドキュメント内 居住地推定法 基 (ページ 67-71)

関連したドキュメント