Distance on the Graph [hop]
5.1 本章 背景
5.3.1 居住地
主 居住地周辺 活動 考 、投稿 位置情報付
、各 居住地 付与 。居住地 付与 次 手順 。 、
第5章 用 居住地推定 性能 45
居住地 付与 、Twitter Streaming API*1 利用 日本 包含 矩
形*2内 位置情報付 収集 。 、地理座標情報(coordinates)
付与 利用 、付与 除外 。
、Bot 影響 減 、先行研究 [森國 15] 同様
方法 位置情報付 集合 Bot 取 除 。
後、総務省統計局 平成22年度国勢調査 境界 用 、 付与 地理座標 含 日本 市区町村( ) 照合 。 、 照合
(日本国外 ) 除外 。 、 最 多
投稿 居住地 付与 。
2014年1月1日 12月31日 位置情報付 Streaming API
140,055,452件集 。投稿回数 極端 少 除外 、同
5回以上投稿 絞 込 、 最 多 投
稿 居住地 付与 。 結果、610,891 居住地 付与
。
5.3.2
構築 、居住地 付与 関係
用 。居住地 付与 集合
集合 2015年7月 収集 。 用 、次 手順 構築 。 、居住地 付与 集合 、
集合、 集合、 5.3.3節 述
情報 、1 以上 取得 除外 。 、残 集合
。次 、 同士
相互 作 。 単純無向
。
最終的 、471,761 3,112,137 含 。
居住地 付与 。総務省統計局 境界 日本 市区町村 1,901種類含 、作成 1,873種類
出現 。 、 1 持 (孤立 )
82,677 存在 。本研究 情報 使 居住地推定手
法 用 、 居住地 推定 。推定
*1https://developer.twitter.com/en/docs/tweets/filter-realtime/api-reference/
post-statuses-filter.html(viewed 2019-05-13)
*2北緯20度 50度、東経110度 160度 範囲。
第5章 用 居住地推定 性能 46
居住地推定 対象 、分析 際 考慮 。
5.3.3 属性
特徴 調 、 属性 用意 。 特徴 、
*3 得 値 用 。 構築
関係 収集 同時期 2015年7月 、居住地 付与
情報 取得 。 属性 、 名(screen name)
文字数、名前(name) 文字数、場所 文字数、自己紹介文 文字数、 数、
数、 数、公開 入 数、総 数 。日本語 文
字 英数字 1文字 。
他 属性 、 値 計算 、 作成日
日数、1日 数、 / 比 。 作成日
2015年7月1日 日数 作成日 日数 。1日
数 、総 数 作成日 日数 割 。
/ 比 数/( 数+ 1) 定義 。以上、
有効 可能性 広 調査対象 。
5.4 実験設定
居住地 推定 特徴 明 、 属性値 居住
地推定 対象 選択 、 居住地推定 性能 分析 。推定 対
象 、 持 関係 構築 収集
。居住地 付与 471,761 対象 、付与 1
隠 推定 繰 返 leave-one-out交差検証 性能 調査 。
5.4.1 居住地推定手法
居住地推定 、無向 G(V, E) 付与 集
合 M 使 、居住地 ( 付 ) u 居住地
lˆu = infer(V, E, M) 推定 。V 集合 、E 集合
。
本章 、 居住地推定手法 隣接 情報 使
*3https://developer.twitter.com/en/docs/tweets/data-dictionary/overview/
user-object.html(viewed 2019-05-13)
第5章 用 居住地推定 性能 47
手法 実験 用 。 、infer(V, E, M) 代 V E 計算
u 隣接 集合Nu ={v|(u, v) ∈E} 利用 、infer(Nu, M) 。
最 情報 用 居住地推定 手法 、 関係
比較的密度 高 場合 十分有効 機能 [廣中 17]。
本章 、[Jurgens 15] 良好 性能 示 [Davis Jr. 11] 推定手法 用
。 手法 、推定対象 隣接 持 中 最 現
選択 推定値 手法 。 手法 表現 式(5.1) 。
、arg max∗ 同値 集合 返 定義 。本章 、最 現
複数 場合 、学習 中 出現頻度 高 選択 。 Su = arg max∗
l∈{ln|n∈Nu}|{v|v ∈Nu, l =lv}|
Infer(Nu, M) = arg max
l∈Su
|{n|n∈M, l=ln}| (5.1)
Davis Jr. [Jurgens 15] 、居住地 推定 選択
、最小友人数、最大友人数、最小投票数 用 。最小友人数 最大友人数 、
相互 数(Davis Jr. 用 次数) 最小値 最大値
、最小投票数 |Nu∩M|=|Nu| 。本章 、 得
属性 用 推定 難 特徴 調 、最小友人数 最大友人数
考慮 。最小投票数 1 、推定 推定 。
用 多 居住地推定手法 、関係 近 住 仮定 用 。 本章 分析結果 、同様 仮定 、
用 他 推定手法 参考 結果 考 。