• 検索結果がありません。

結果 考察

ドキュメント内 居住地推定法 基 (ページ 56-65)

Distance on the Graph [hop]

5.5 結果 考察

得 属性 用 選択 推定性能 調

、居住地推定 特徴 分析 。 、 得 属

性 判別 調 、 後 居住地

推定 明 。

第5章 用 居住地推定 性能 49 表5.1: 適合率 最大 値 性能

属性 θ Precision Recall Coverage n

数 LowCut 190 0.3416 0.1738 0.5089 240094

HighCut 612 0.3230 0.2265 0.7012 330810

数 LowCut 210 0.3537 0.1621 0.4582 216170

HighCut 830 0.3189 0.2345 0.7355 346960

総 数 LowCut 1 0.3116 0.2568 0.8242 388807

HighCut 5478 0.3350 0.1745 0.5210 245805

1日 LowCut 1.804 0.3209 0.1783 0.5556 262130

数 HighCut 13.509 0.3238 0.2203 0.6802 320899

公開 入 LowCut 35 0.2458 0.0130 0.0529 24936

数 HighCut 1 0.3888 0.1232 0.3169 149507

数 LowCut 450 0.3444 0.1268 0.3682 173694

HighCut 7752 0.3157 0.2440 0.7728 364574

/ LowCut 1.02 0.3692 0.1197 0.3241 152913

比 HighCut 2.35 0.3140 0.2481 0.7901 372726

名 文字数 LowCut 8 0.3144 0.1746 0.5552 261906

HighCut 14 0.3115 0.2301 0.7386 348457

名前 文字数 LowCut 0 0.3117 0.2571 0.8247 389077

HighCut 6 0.3461 0.1557 0.4499 212264

場所 文字数 LowCut 15 0.2856 0.0165 0.0579 27336

HighCut 1 0.3673 0.1593 0.4337 204600

自己紹介文 文字数 LowCut 0 0.3116 0.2279 0.7314 345035

HighCut 28 0.3592 0.1245 0.3466 163519

作成日 LowCut 176 0.3117 0.2571 0.8247 389084

日数 HighCut 498 0.4011 0.0522 0.1301 61398

0.3117 0.2571 0.8247 389084

5.5.1 居住地推定 寄与 属性

各 属性値 対 様々 値 設定 適用 推定対象

絞 込 、居住地 正 推定 割合 調 、居住地

第5章 用 居住地推定 性能 50

推定 得 属性 判別 調 。

属性 用 適用 居住地推定 結果 、 率 0.05

以上 *4 適合率 最大 値 、 適合率、再現率、 率 表5.1 示 。推定対象 選択 HighCut LowCut 2種類 条件 用 。表中 n 推定対象 数 、下線 場合 推定精度

改善 意味 。

推定精度 改善 、次 手順 判定 。推定対象 n 居 住地 正 推定 数 x 、適合率 p= x/n 表 。n

無作為 取 出 繰 返 、適合率 分布 平均 p、分散p(1−p)/n

規分布N(p, p(1−p)/n) 近似 n 選択 x

居住地 正 推定 信頼区間 求 、 場合(n= 389084) 信頼区間 比 、区間 重 適合率 上回 、推定精度 改善 判定

表5.1 適用 結果 適用 場合 結果 比

較 、 属性 HighCut LowCut 両方 適合率 向上

。適合率 最 高 、 作成日 日数 498日 長

除外 。 、 作成日 日数 498日 長

居住地 推定 。 、 作成

除外 適合率 向上 、LowCut 同 結果

。 数、 数、 数、1日 数、 /

比 、値 大 除外 場合 小 除外 場合 適合

率 向上 。 、値 大 小 居住地 正

推定 示唆 。総 数、公開 入 数、名前

文字数、場所 入力 文字数、自己紹介文 文字数 多 、 名 文 字数 少 除外 場合 適合率 向上 。

次 、 値 変 適合率 率 変化 。表 5.1 最 適合率

高 作成日 日数 用 、 値 大 値 持

推定対象 除外 結果 図 5.1a 示 。図 x軸 水平 破線 、全 推定対象 、 場合 適合率 。 値 2000

小 適合率 高 、498日以上 推定対象 除外

適合率 最大 。Twitter 利用 始 日数 長

上 知 合 関係 古 関係 増 、 地理的距

離 反映 関係 推定精度 影響 与 解釈 。

*45% 除外

第5章 用 居住地推定 性能 51

0.0 0.2 0.4 0.6 0.8 1.0

Coverage

500 1000 1500 2000 2500 3000

0.30 0.32 0.34 0.36 0.38 0.40

Precision

Precision Coverage

(a) 作成日 日数 長

除外

0.0 0.2 0.4 0.6 0.8 1.0

Coverage

100 101 102 103 104

0.30 0.32 0.34 0.36 0.38 0.40

Precision

Precision Coverage

(b)公開 数 大

除外

0.0 0.2 0.4 0.6 0.8 1.0

Coverage

102 101 100 101 102

0.225 0.250 0.275 0.300 0.325 0.350 0.375

Precision

Precision Coverage

(c)

図5.1: 値 適合率 変化

表 5.1 適合率 2番目

大 値 持 推定対象 除外 HighCut 、 値 変

結果 図 5.1b 示 。 値 上 適合率 下 、

入 数 多 居住地 正 推定 。Twitter 公開

利用 、 別 考 、

見 追加 。 入 友人以外

有益 情報 得 認識 、友人以外

可能性 高 、居住地 正 推定 解釈

表 5.1 3番目 適合率 高 / 比 小 除外 値 結果 変化 図 5.1c 0.01 1.02

大 適合率 上 。 後 値 約10 適合率

第5章 用 居住地推定 性能 52 低下 、 後再 適合率 上昇 。傾 着目 適合率 上昇

複数 、 比 居住地 正 推定 判別

、HighCut LowCut単体 不十分 考 。

5.5.2 居住地推定 困難

前節 、居住地 正 推定 居住地 推定

、適合率 用 居住地 推定 判別 属性 分析

。居住地 正 推定 、居住地 誤 推定

、 推定 関係 得 居住地 推定 含

。本節 、推定 2種類 分 分析 。

分析 、 、居住地推定 結果 集合 分割 、各 集合 対 属性値 分布 計算 。 、 全体 対 各 集合 偏 度合 計算 。 次 3種類 分 集合 属性値 分布 調

:正 居住地 推定 (easy)、誤 居住地 推定 (hard)、

居住地 推定 (unknown)。 、多数 友人

同 居住地 持 、多数 友人 同 居住地 持 、居住地 判明

友人 存在 推定 手 、推定 難 表

。 3種類 集合 含 数 ABC 、 適合率 再現率 次 計算 値 等 。

Precision = A A+B

Recall = A

A+B+C

集合U V 属性値 分布 計算 総数

|U| 属性値 区間 i : [xi, xi+1) 含 数 ni

。 、 属性値 区間 i 中 存在 割合 ni/|U|

。縦軸 属性値 区間 存在 割合、横軸 区間 、

f(i;U) =ni/|U| 属性分布

ini/|U| 1 区間 決 。

値 変化 同 、 数、 数、 数、総 数、

入 数、1日 数、 / 比 属性

、区間 等間隔 対数 。

全体(V) 区間 i 存在 割合 f(i;V)、比較 集合U 区間 i 存在 割合 f(i;U) 、全体 分布 対 偏 度合

log10 f(i;U)f(i;V) 計算 全体 分布 区間 割合

第5章 用 居住地推定 性能 53 正 値 、小 負 値 。比較 分布間 差 大 値 絶対値 大 。

5.5.1節 場合 推定結果 用 、 3種類 分

。 結果、正 居住地 推定 121,275 、誤 居住地 推定

267,809 、 居住地 推定 82,677 。

属性 、 含 全体 集合、

含 居住地 正 推定 集合、誤 推定

集合、居住地 推定 集合 属性分布 計算 。

、計算 属性分布 用 、居住地 正 推定 集合、誤 推定

集合、居住地 推定 集合 、全体 分布 対

偏 度合 分布 計算 。 紙面 都合上、表5.1 適合率 向上 属

性 、 傾向 結果 得 、 作成日 日数、名前

文字数、自己紹介文 文字数 結果 図 5.2 示 。図 5.2a、図 5.2c、図 5.2e

分布 重 。 含 全体 集合

分布 棒 。偏 度合 分布 図5.2b、

図 5.2d、図 5.2f 。

図5.2a 図5.2b 作成日 日数 結果 。 図5.2a 、 作成日 日数 500 900 多 。次 図 5.2b

。 全体 対 誤 居住地 推定 割合 、 他2

集合 影響 、 作成日 日数 長 増 。 全

体 対 正 居住地 推定 割合 、 作成日 日数 長

減 。居住地推定 正解 割合 、 作成日 日

数 500 中央値 近 900 作成日

日数 短 居住地 推定 多 。日数 増

割合 減 、 作成日 日数 約1400日

増 。 作成日 日数 平均値 1091日、中央値 939 図5.2c 図 5.2e 名前 自己紹介文 長 分布 示 。 集合全体 見 、名前 文字数 4文字 最 多 。自己紹介文 文字数 10文字

、文字数 増 割合 減 、最大 160文字

。図 5.2d 、 名前 長 中央値 5 、

全体 正 居住地 推定 割合 最 多 、名

前 短 長 居住地 推定 割合 増 。居

住地 誤 推定 割合 、他 2 集合 影響 、名前 文 字数 多 大 。図 5.2f 示 自己紹介文 結果 、文字数 多

正 居住地 推定 有効 居住地 推定 割合 減

第5章 用 居住地推定 性能 54

、誤 居住地 推定 割合 増 。特 、名前 文字数 自己紹介 文 文字数 1文字増加 、居住地 誤 推定 全体 対

割合 一定 割合 増加 。名前 文字数 自己紹介文 文字数 偏 度合 結果 見 、 作成日 日数 同様 、 多 分布

部分 正 居住地 推定 割合 増 。 傾向 、 名 文字数 場所 文字数以外 属性 確認 。

5.5.3 考察 限界

5.5.1節 、 数 数、名前 文字数、自己紹介文 文字数

居住地 推定 判別 。5.5.2節 、 作成日

日数 名前 文字数、自己紹介文 文字数 、居住地 正 推定

割合 、誤 推定 割合 変化 。 属性 性

能 影響 理由 、推定手法 、 利用方法

考 。

構造 直接関係 情報、具体的 数

数 、以下 知見 得 。5.5.1節 、 関係

用 居住地推定 、 数 数 少

多 居住地 正 推定 、特 数

数 少 居住地 正 推定 結果 得 。 /

比 用 、 数 比 数 相対的 多

値 小 除外 、適合率 大 向上 。[Davis Jr. 11] 相互

構築 推定 用 、相互 数

制限 適合率 向上 報告 。 、[Rahimi 15]

相互 構築 、相互 数

制限 前処理 。 関係 収集 完全

次数 数 数 制限 適合率 向上

本章 結果 示 。

・ 関係 時間 経過 変化 [Hironaka 18]。5.5.1節

、 作成日 日数 長 推定 難 結果 得

。 、Twitter 長 利用 地理的近接性 示 関係

蓄積 、居住地 推定 示唆 。 、

作成 数 数 共 0 、 作

成日 日数 短 数 数 少 居住地 推定

考 。 、 作成日 日数 少 除外 推定精度

第5章 用 居住地推定 性能 55

500 1000 1500 2000 2500 3000 3500

0.000 0.005 0.010 0.015 0.020

0.025 easy

hard unknown

(a) 作成日 日数(分布)

500 1000 1500 2000 2500 3000 3500

0.8 0.6 0.4 0.2 0.0 0.2

easy hardunknown

(b) 作成日 日数(偏 度合

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.00

0.05 0.10 0.15

0.20 easy

hard unknown

(c)名前 文字数(分布)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.15

0.10 0.05 0.00 0.05 0.10

0.15 easy

hard unknown

(d) 名前 文字数(偏 度合 )

0 20 40 60 80 100 120 140 160

0.0000 0.0025 0.0050 0.0075 0.0100 0.0125 0.0150 0.0175

0.0200 easy

hard unknown

(e) 自己紹介文 文字数(分布)

0 20 40 60 80 100 120 140 160

0.3 0.2 0.1 0.0 0.1 0.2

easy hard unknown

(f) 自己紹介文 文字数(偏 度合

図5.2: 値 分布

第5章 用 居住地推定 性能 56

上 。 、居住地 正 推定 、 作成

友人 相互 考 。

構造 直接関係 情報 、以下 知見 得

。5.5.2節 、名前 文字数 自己紹介文 文字数 居住地 正 推定

判別 有用 手 結果 得 。先行研究

名 名前 性別 予測 [Burger 11] 研究 、一定 名

名前 本名 入力 考 。 、一部 、名前

名前以外 情報 入力 [Shima 17]。Shima 名

前 自己紹介文、場所 入力 情報 変更 行動 分析 、他

知 名前以外 情報 名前 入力 存在 報告

。我々 、自己紹介文 長 同様 、自分 他

伝 説明文 書 、Twitter上 知 合 考慮

考 。 、自己紹介文 名前 長 多 現実

友人 一緒 使 表 手 、居住地推定 難 影響 解

釈 。

本章 得 結果 使 、居住地 推定 事前 情報

選 、 収集 、居住地 推定

。本章 日本 Twitter 用 日本国内 活動

対象 分析 。 、本研究 得 特徴 、他 国 適用 可能性 。先行研究 位置情報 投稿 特徴 分

析 研究 [Sloan 15]、日本 他 国 比 位置情報

有効 割合 低 、 位置情報付 割合 低

。 、日本 他 国 意識 異 、

使 方 異 示唆 。 、得 分析結果 居住地推

定手法 依存 、本章 用 Davis Jr. 推定手法 [Davis Jr. 11] 隣接

持 中 最頻値 選 、 他

使 推定手法 用 場合 通用 結果 考 。

属性 中 相関 含 考 。 、各 属

性間 順位相関係数*5 計算 。 属性 値 並 替 、 並 相関係数 計算 結果 図 5.3 示 。最 高 相関係数 、 数

数 約0.89 。5.5.2節 詳述 属性 、名前 文

字数、自己紹介文 文字数、 作成日 日数 相関係数 0.5未満 小 、結果 解釈 影響 考 。

*5 含 属性 順位相関係数 選択

第5章 用 居住地推定 性能 57

1

1

0.8 0.4 0.0 0.4 0.8

図5.3: 属性間 順位相関係数

ドキュメント内 居住地推定法 基 (ページ 56-65)

関連したドキュメント