Distance on the Graph [hop]
6.1 本章 背景
居住地 推定 、 間 関係 表 利用
[Jurgens 15]。 仮定 、 上
同士 地理的 距離 近 。 、Rahimi 、多
、居住地 推定 存
在 明 [Rahimi 15]。 推定 難
Celebrity 呼 。 、Ebrahimi 、 Celebrity 推定 難
、 相手 地理的 広 散 Global celebrity 推定 難
、Celebrity 明 [Ebrahimi 18]。我々 、
上 近 位置 、地理的 近 位置
関係 多 持 、何 的特徴 考 。本章 、
的特徴 中心性指標 用 、居住地推定 難
特徴 分析 。次数中心性 PageRank [Page 98], HITS [Kleinberg 99] 中心性
指標 、 用 [Weng 10,山口 11, Chien 14]、周囲
似 属性値 持 関連 考 。
本章 、日本 Twitter 対象 、複数 中心性指標 持 友人
居住地 類似性 、 関係 分析 。 結果、多数 友人
居住地 共有 、PageRank HITS Authority Hub 分布 違
。加 、Authority Hub 2種類 存在
HITS 仮定 、全 同質 考 、Twitter
性質 合 。
第6章 中心性 居住地推定性能 60
6.2
本節 、分析 用 述 。 居住地
。
6.2.1 居住地
主 居住地周辺 投稿 考 、主 位置情報付 投
稿 場所 居住地 。具体的 、位置情報付 付与
地理座標(coordinates) 市区町村 照合 、最 投稿回数
多 居住地 。Twitter Streaming API 用 2014年 投
稿 日本 包含 矩形*1内 位置情報付 収集 。 、総務省統
計局 境界 *2 用 、 位置情報付 含 地理座標
(coordinates) 含 日本 市区町村 照合 。
付与 居住地 正確 上 、同 5回以上投稿
絞 込 、 最 多 投稿 居住地 付与
。 結果、471,761 対 1873種類 居住地 付与 。
6.2.2
構築 、居住地 付与 関係 用
。居住地 付与 集合 集合
2015年7月 収集 。 A B 、 A
B 方向 有向 作 、 構築 、居住地 付与
除外 。
収集 、471,761 ( ) 8,295,355 含
構築 。 含 居住地 付与
。各 平均 数 17.58 、居住地 付与 相手
平均相互 数 13.2 。 、471,761 42,316
持 孤立 。
*1北緯20度 50度、東経110度 160度 範囲。
*2https://www.e-stat.go.jp/ (viewed 2020-12-02)
第6章 中心性 居住地推定性能 61
6.3 分析方法
持 中心性 値 友人 同 値 持 傾向 関係 分析 。 中心性 値 計算 説明 、次 傾向 測 方 説明 。 、同 値 持 傾向 中心性 値 偏 計算 。
6.3.1 中心性指標
中心性指標 、入次数中心性、出次数中心性、PageRank [Page 99]、HITS
[Kleinberg 99] 計算 Authority Hub 用 。中心性指標
( ) 計算 値 。
入次数中心性 、各 居住地 付与 数
、 数 多 大 値 持 。出次数中心性 入次数中心性
反対 、各 居住地 付与 数
、 数 多 大 値 持 。無向 次数 先行研
究 [Rahimi 15, Ebrahimi 18] Celebrity(有名人) 除外 際 用
指標 、有向 用 本研究 入次数 出次数 分析 用 。
PageRank 入次数中心性 似 、 大 値 持
値 大 。PageRank 、 多
、 中心性 値 高
期待 。先行研究 [Kwak 10] 、影響力 発見
PageRank 使 。
Authority Hub 、HITS 同時 計算 値 。
Au-thority Hub 高 高 、Hub Authority 高
高 定義 指標 。一般的 、Authority
多 高 、Hub 多
高 。HITS PageRank 共 際 用
[Chien 14]。我々 情報配信元 多
(Authority 高 ) 、情報収集 目的 良 情報源 多 知
(Hub 高 ) 存在 仮定 HITS 用 。 中心性指標 、
6.2.2節 構築 用 、NetworkX*3 計算 。計算 際
値 用 。
*3https://networkx.org/(viewed 2020-12-02)
第6章 中心性 居住地推定性能 62
6.3.2 友人 居住地 類似性
友人 同 値 持 傾向 測 、友人 居住地 類似性 用 。友人 居住 地 類似性 、 用 居住地推定手法 [Davis Jr. 11] 居
住地 正 推定 判定 。Davis Jr. 提案 居住地推定手法 、
友人 持 居住地 中 最 出現頻度 高 居住地 推定 。 手法 推定結果 用 、次 3 分類 :(a) 居住 地 正 推定 easy 、(b) 居住地 誤 推定
hard 、(c) 手 居住地 推定
unknown 。 、(a)多数 友人 同 居住地 持
、(b) 多数 友人 同 居住地 持 、
(c) 手 (友人) 類似度 測 。
本章 、相互 関係 友人 。 、居住
地推定 、6.2.2節 構築 、相互 存在 場合
取 出 無向 利用 。居住地推定 正 正確 一致
判定 、評価対象 隠 他
推定 用 leave-one-out交差検証 評価 。推定 本来
正確 一致 easy 、誤 推定 hard
、手 推定 unknown
分類 。
6.3.3 偏 度合
集合U ⊆ V 対 中心性 分布 次 計算 。 、総 数 N =|U|、中心性 値 区間i : [xi, xi+1) 含 数 ni 。 、 区間i 含 割合f(i;U) ni/N 。f(i;U) 分布 呼 。
、 集合V 対 分布 計算 。 、友人 類似度
分 対 分布 計算 。 、友人
類似度 分 、 集合 対 偏 明
、 分布 差 次 方法 計算 。区間 i 対応
集合V 分布 値 f(i;V)、 U 区間i 対応 分布 値 f(i;U) 。 、偏 度合 分布 log10(f(i;U)/f(i;V))
定義 。 偏 度合 分布 値 、区間i 、
区間 割合 、 集合 計算 割
第6章 中心性 居住地推定性能 63
100 101 102 103 104
In-degree 0.0
0.1 0.2 0.3 0.4 0.5
Percentage of users
(a) easy (b) hard (c) unknown median Overall
(a) 分布(入次数中心性)
100 101 102 103
In-degree 0.6
0.4 0.2 0.0 0.2
Ratio
(a) easy (b) hard Overall median
(b) 偏 度合 分布(入次数中心性)
100 101 102 103 104
Out-degree 0.00
0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16
Percentage of users
(a) easy (b) hard (c) unknown median Overall
(c) 分布(出次数中心性)
100 101 102 103 104
Out-degree 0.6
0.5 0.4 0.3 0.2 0.1 0.0 0.1 0.2
Ratio
(a) easy (b) hard Overall median
(d) 偏 度合 分布(出次数中心性)
図6.1: 入次数中心性 出次数中心性 分布
合 対 大 正 値、小 負 値 。偏 度合 分布 値 絶対値
、比較 分布間 差 大 大 。