居住地推定法 基
関 分析
(Analysis of Social Graph Properties for Home Location Estimation)
2021 年 1 月
博士(工学)
廣中 詩織
豊橋技術科学大学
別紙4-2(課程博士(和文))
2021年 1月 8日 情報・知能工学専攻 学籍番号 第143369号 指導教員 梅村 恭司
北崎 充晃 氏名 廣中 詩織
論文内容の要旨 (博士)
博士学位論文名 居住地推定法に基づいたソーシャルグラフに関わるプロパティの分析
(要旨 1,200字程度)
人間社会では、似た属性を持つ人とのつながりを持ちやすいことが知られている。ソーシャル メディアが広く使われるようになり、人々の行動がソーシャルメディアを通じて観測できるよう になってきた。多くの人々に利用されているソーシャルメディアは、現実の社会を観測し分析す るために利用される。様々な分析をする際にはユーザ属性が利用されるが、一部のユーザ属性は 欠損していることが多いため、他の情報から推定する必要がある。ソーシャルグラフはソーシャ ルメディア上のユーザ間の関係をもとに構築することができるが、このとき似た属性を持つユー ザ同士のつながりをもとにしたソーシャルグラフを用いると、居住地などのユーザ属性を推定す ることができる。
ソーシャルグラフは現実の社会を反映していると考えられるが、ソーシャルグラフの性質は明 らかではないため、実際のデータをもとにソーシャルグラフの性質を調べるアプローチが必要で ある。ソーシャルグラフを用いた居住地推定では、ソーシャルグラフの持つ性質により推定性能 が変化する。本論文では、ユーザ属性とソーシャルグラフとの関係に着目し、居住地推定を通じ てソーシャルグラフのプロパティを分析する。
ソーシャルメディア上でのユーザ間の関係には多くの種類があることから、居住地推定に適し たユーザ間の関係の特定に取り組んだ。その結果、居住地推定に用いるソーシャルグラフを構築 するために利用するユーザ間の関係について、向きを考慮することで推定性能が向上することを 明らかにした。
ソーシャルグラフ上において、ユーザに紐付いている居住地ラベルがグラフ上でどのように分 布しているかは、ラベルをどのように伝搬させていくと推定がうまくいくかに関係している。そ こで、ソーシャルグラフを構成するノードが持つ居住地ラベルがどのような分布をしているのか を分析した。その結果、88%のユーザは同じラベルを持つユーザが1ホップ以内に存在することを 明らかにした。
ソーシャルグラフはユーザが他者と交流する過程で構築されていくものであるため、ソーシャ ルグラフの形状に関わるプロパティは、ユーザの特徴と関係していると考えられる。そこで、居 住地推定が困難なユーザの持つノードのプロパティである、プロフィール属性を分析した。分析 に使用した属性は、ユーザ名や自己紹介文などプロフィールのテキストの文字数、グラフの次数 に関連するフォロー数、フォロワー数、フォロー/フォロワー比、アクティビティを示すいいね 数、総ツイート数、1日あたりのツイート数、公開リストに入れられている数、アカウント作成日 からの日数である。また、他ユーザとつながっている度合いを測る中心性も、ノードのプロパテ ィであるため、中心性についても分析した。分析には、ソーシャルグラフの次数、PageRank、H ITSのAuthorityとHubを用いた。
本論文では、日本のTwitterユーザによるソーシャルグラフの性質についての発見をまとめた。
本論文は日本周辺で投稿された1年分の位置情報付きツイート140,055,452件をもとに大規模な分 析をおこなったものである。
別紙4-1(課程博士(英文))
Date of Submission(month day,year): January 8, 2021 Department of
Student ID Number D143369
Supervisors
Kyoji Umemura Michiteru Kitazaki
Applicant’s name Shiori Hironaka
Abstract ( Doctor )
Title of Thesis Analysis of Social Graph Properties for Home Location Estimation
Approx. 800 words
People tend to interact with others who have similar attributes. Social media, which is widely used worldwide, can be used to analyze real-world social behaviors. Users’ attributes are used in the analysis; however, because certain user attributes are not open to the public, it is necessary to estimate them using other sources of information. A social graph is constructed based on the relationships among users on social media. As we use the social graph based on the relationships among users with similar attributes, we can estimate user attributes such as home location.
While a social graph is considered to reflect the real world, the properties of the social graph are not clearly known. These properties need to be analyzed using data that represent the real world. The performance of social graph-based home location estimation varies based on social graph properties. In this thesis, we analyzed social graph properties using home location estimation, which is based on user attributes and social graphs.
There are several types of relationships between users on social media, however the estimation performance of each relationship is unclear. Therefore, we conducted a study to identify the relationship between users, which is helpful for home location estimation. Based on the results, we observed that the estimation performance can be improved by considering the direction of the relationships.
The distribution of the location labels associated with the users on the social graph is related to the success ratio of the estimation, and we analyzed the distribution of home locations on the social graph. From the results, it was observed that 88% of the users had the same home location within one hop (friends and friends of friends).
A social graph is constructed while interacting with others, and its properties are related to user characteristics. We analyzed users whose home locations were difficult to estimate. We focused on the user profile attributes, which is a subset of the social graph properties, and we analyzed the relationship between the degree of difficulty of estimation and user profile attributes. We employed the following profile attributes: length of the profile text, such as name or description; attributes related to the degree of the graph, such as the number of followings and followers or follow ratio; and activity measures, such as the number of likes,
Computer Science and Engineering
average number of tweets per day, number of lists, or number of days since the account was created. We also conducted an analysis using centrality, which measures the connectivity of other users. We employed the following centralities: the in-/out-degree centrality, PageRank, and Authority and Hub scores of the HITS algorithm.
In this thesis, we summarize our findings on the properties of the Twitter social graph.
This was a large-scale analysis based on 140,055,452 geo-tagged tweets posted throughout Japan in 2014.
iv
目次
第1章 序論:本論文 枠組 1
第2章 3
2.1 実在 . . . 4
2.2 対象 :Twitter . . . 4
2.3 推定対象 属性 居住地 . . . 8
2.4 属性 伝搬 . . . 9
2.5 伝搬 強 . . . 10
2.6 中心性 . . . 10
第3章 居住地推定法 分析 14 3.1 本章 背景 . . . 14
3.2 関連研究 . . . 14
3.3 作成 特徴 . . . 15
3.4 調査 居住地推定手法 . . . 18
3.5 実験. . . 21
3.6 考察 限界 . . . 29
3.7 本章 . . . 31
第4章 上 距離 居住地 32 4.1 本章 背景 . . . 32
4.2 分析 用 居住地推定手法 . . . 32
4.3 . . . 35
4.4 実験 考察 . . . 36
4.5 本章 . . . 41
第5章 用 居住地推定 性能 42 5.1 本章 背景 . . . 42
5.2 関連研究 . . . 43
5.3 . . . 44
目次 v
5.4 実験設定 . . . 46
5.5 結果 考察 . . . 48
5.6 本章 . . . 57
第6章 中心性 居住地推定性能 59 6.1 本章 背景 . . . 59
6.2 . . . 60
6.3 分析方法 . . . 61
6.4 結果 考察 . . . 63
6.5 本章 . . . 65
第7章 結論 67
謝辞 70
参考文献 71
博士論文 関 論文 77
vi
図目次
2.1 Twitter Web 画面 例(2020年12月2日閲覧) . . . . 6
3.1 関係 4種類 間 関係 . . . 17
3.2 間 地理的 距離 分布 . . . 26
3.3 距離 分布(Majority Vote + follower) . . . 27
3.4 4種類 手法 推定性能 k 変 Recallk 評価 結果 . . . 29
4.1 繰 返 回数 4種類 推定関数 変 評価結果(適合率、再現率、 F値) . . . 38
4.2 繰 返 回数 4種類 推定関数 変 評価結果(平均 距離、 中央値 距離) . . . 39
4.3 同 持 最短距離 分布 . . . 40
5.1 値 適合率 変化 . . . 51
5.2 値 分布 . . . 55
5.3 属性間 順位相関係数 . . . 57
6.1 入次数中心性 出次数中心性 分布 . . . 63
6.2 PageRank HITS Authority, Hub 分布 . . . 64
vii
表目次
3.1 統計量 . . . 19
3.2 居住地推定性能(leave-one-out交差検証) . . . 24
3.3 居住地推定性能(10分割交差検証) . . . 25
3.4 都道府県 居住地推定性能(leave-one-out交差検証) . . . 30
5.1 適合率 最大 値 性能 . . . 49
1
第 1 章
序論:本論文 枠組
社会的 生物 人間 、相互 影響 与 合 暮 。人間 人間 関係 、家族 友人、恋人、同僚 様々 。関係 人間同 士 人 持 面(属性) 共有 。同僚 同 会社 勤
、家族 一緒 住 多 、学友 同 学校 通 。住
場所 通 大学 人 属性 、似 属性 持 人同士 人間社会 多 存在 。
人間同士 関係 分析 、人間 、人間 人間 関係
表現 用 。 表現
、人 持 属性 人間同士 関係 調 。多 人々 日常
的 利用 、 上
人間関係 観測 、分析 用
。 上 人間関係 持 現実世界 人間関係
多 、 現実世界 人間関係 関連
。本論文 、基本的 呼 際、
指 。
上、特 上 、人々 認識
。 上 、 同士 様々 交流 、様々 関係
築 。 社会 一部 反映 、様々
研究開発 用 。例 、 検出 [Benhardus
13] 体験向上 推薦 [Jonnalagedda 13, Phelan 09]、疾患 流行
観測 [Signorini 11]、現実世界 起 検出 [Sakaki 10] 挙 。
研究開発 、 属性 組 合 詳細 分析
。 普段利用 Web 、様々 場所
、 属性 利用
。 属性 様々 場面 必要 、一部 属性 欠損
多 、欠損 属性 情報 推定 取 組
第1章 序論:本論文 枠組 2
。
似 属性 持 上 同士 用 、 属性 推定
。例 、現実 友人関係 場合、住
場所 近 同士 、近 年齢 同士 、
位置 年齢 推定 利用 。 、 購読
利用 場合 、住 地域 関 読
考 、 位置 推定 利用 可能性 。 、 上
間 関係 属性 推定 可能性 、 間 関係 推定 属性 異 。
上 様々 間 関係 存在 、
用 属性 推定 考 、 間 関係 属性推定
働 調 方法 必要 。
定義 作 、 生成
考 、実際 性質 調 必要 。
本研究 、 属性 関係 着目 、
分析 。
上 様々 関係 作 、
間 関係 種類 変 。関係 種
類 形状 異 、 関係 属性推定 適 間
関係 調 必要 。第 3章 、 構築 用
間 関係 推定性能 与 影響 分析 。
上 属性( ) 位置
、属性 推定 方法 変 。 上 属性 分布
、直接 部分 使 予測 、 全体
使 性能 向上 調 必要 。第 4章 、同 値 持 間 距離 分析 。
構築 他 関係 、他 関係 持
、 形状 決 考 。 、推定
性能 影響 形状 、関係 作 関連
考 。第 5章 、推定対象 関係 築 、
分析 。 、第 6章 、
一般的 解析手法 用 、推定対象 上
特徴 持 分析 。
3
第 2 章
本章 、属性推定 必要 、 関連 諸概念 記述
。 、 情報 投稿・閲覧 、交流 双方向
。平成30年版情報通信白書 、「 、
(SNS)、動画共有 、利用者 情報 発信 、形成 」
定義 [総 18]。 、
異 、各 情報 発信者 、人々 各
自 考 投稿 。 、 分析
、世論 流行 社会 分析 。
社会 分析 上 、社会 構成 人 関係 調 重要 。
上 間 関係 取得 、人間同士 関
係 表 得 。 述 、
上 人々 活動 場 、得 現実 人間同
士 関係 表現 、 上 関係 表現
。 、 利用 現実 存在 人
間 、現実 知 合 上 交流 多 。 、
現実世界 関係 反映 。
以下 、 実在 2.1節 述 。次 、本論文
分析 用 Twitter 、 構築 用
Twitter上 間 関係 2.2 節 説明 。 、 属性
居住地 2.3節 述 。 属性 関係
2.4節 述 。 、 間 関係 属性 類似性 強 2.5節 述 。 中心性 2.6節 述 。
第2章 4
2.1 実在
多 種類 。例 、Twitter Facebook
、掲示板、 、 、
投稿 閲覧 主 、多
当 。多 共通 以下 機能 持 :
投稿、 閲覧、 購読、 評価、 共有
( )。投稿 種類 利用目的 、 関係 持
違 、共通 点 。
本研究 、種々 中 Twitter 注目 、Twitter
対象 分析 。平成 30年版情報通信白書 、日本
40% 人 Twitter 利用 答 [総18]。Twitter API 提供
収集 、 多 人 利用 、分析 対象 適
。 、 多 似 機能 持 、本論文 分析方法
他 対象 場合 参考 考 。
2.2 対象 : Twitter
Twitter 人々 起 比較的短 文章 投稿 。
呼 短文 投稿 特徴 、 日本語 140文字以内
制限 *1。投稿 短文 、他 比 、比較的
情報 投稿 特徴 [吉田 16]。投稿 各 呼 場所 時系列順 表示 。各 、自身 過去 投稿
新 順 表示 、 (購読)
投稿 新 順 表示 持 。
各 情報 入力 。 情報 詳細 2.2.1 節 説明
。 、各 投稿 情報 2.2.2節 説明 。 、
間 関係 2.2.3節 述 。
*12017 年 9 月 11 月 、日 本 語 、中 国 語 、韓 国 語 以 外 言 語 、 文 字 数 制 限 280 文字 緩和 。https://blog.twitter.com/official/en_us/topics/product/
2017/Giving-you-more-characters-to-express-yourself.html(viewed 2020-12-02)
第2章 5
2.2.1
情報Twitter 利用 投稿 作 必要 。
登録 際 、他人 重複 名( 名;例:@twitter) 決
必要 。 、 公開 非公開
選 。非公開 、 許可
閲覧 許可 。非公開 許可 取
得 、本研究 公開 対象 。
名前(表示名)、場所、自己紹介 入力 。名前 50文字
入力 、 表示 際、共 表示 。場所
位置情報 入力 、位置情報 関係 入力
。自己紹介 160文字以内 入力 、場所 画面 表示 。 、 画像 設定 。
図 2.1 示 、 画面 名、名前(表示名)、
画像、自己紹介、場所、Twitter登録日、 数、 数 表示
。API 取得 際 、各 投稿者
情報 紐付 。
2.2.2
情報Twitter Web 、投稿 入力 欄 「 ?」
表示 、多 起 投稿 。
、 投稿 日時 、 投稿 情報、
内容 紐付 。 、内容 自動的 解析 、
含 URL 、言及( ) 情報
付与 。 、画像 動画、位置情報 含
。
付与 位置情報 、 情報(place;豊橋市 愛知県 ) 詳
細 座標情報(coordinates;緯度経度) 2種類 。座標情報 付
場合、Twitter 座標 対応 情報 追加 、詳細
座標情報 付与 場合 両方 位置情報 付与
。
Twitter 、他 投稿 再投稿( )
。 、自身 対 共有 行為 。
第2章 6
図2.1: Twitter Web 画面 例(2020年12月2日閲覧)
、投稿者 閲覧 、
拡散 、多 目 触 。 場合
、 情報 、 元 情報、元
投稿者 情報 共 得 。
Twitter 情報 取得・投稿 API 公開 、自動
。自動投稿 主体 Bot 呼 。 属性推定
利用 作 際 、Bot 存在 無視
。
Twitter 、今日 天気 新着 投稿 Bot 、様々 Bot
。 、普段 手動 投稿 、Twitter
機能 他 機能 利用 、自動投稿 。例
第2章 7
、Foursquare(Swarm)*2 位置情報 共有 目的
、 友人 共有 、Foursquare上 共有 場所 Twitter
同時 投稿 。 程度決 文面 投稿 。他 、Web
設置 、 決 文面(
文 ) 入力済 投稿画面 出 。 利用 、
同 文面 入 複数 投稿 。自動生成
投稿 分析 障害 、 特徴 、 対 前処理 段階
Bot Bot投稿 除外 。
2.2.3
間 関係関係 表現 。
上 、各 他 対 行動 起 、
行動 間 関係 得 。
対 行動 、 、 、 (@ ) 。
機能 、他 購読 自分自身 作
使 。 機能 以外 仮想的 作 使
。 1 1 持 、
複数作成 。 、公開 非公開 、他 作成 公開
購読 。各 、自分 追加 公開 一覧
画面 確認 。公開 関連 集 作成
多 、公開 付 名前 、 追加
対 付 [Yamaguchi 15]。 、
投稿 際 他 名 中 含 。
投稿 際、言及 通知 受 取 。 、
入 、 言及( ) 行為 、相手 許可
求 。
対 行動 、 気 入 *3 。
気 入 入 行為 、 行為 、
許可 必要 。 投稿 情報 紐付
、 関係 関係 。加 、
*2https://www.swarmapp.com/(viewed 2020-12-02)
*32015年11月 気 入 名称 変更 。同時 UI 形 星形
型 変 更 。https://blog.twitter.com/official/ja_jp/a/ja/2015/1104heart.html, https://twitter.com/TwitterJP/status/661659581832015878(viewed 2020-12-02)
第2章 8
行動 、 (返信) 。
対象 言及 行動 、 特定 対 返信
投稿 。
、対象 投稿 購読
。 理由 分析 研究 [Kwak
10, Barbieri 14, Tanaka 14, Yamaguchi 15]。大 分 、 内容
興味 持 、知 合 2 分
。 、 友人関係 含
、 限 。
2.3 推定対象 属性 居住地
年齢 性別、嗜好、居住地 属性 利用
用 、特 情報 整理 利用 属性
。情報 整理 際 使 軸 、時間、空間、名前 3軸 。例
、年表 情報 時間 軸 整理 、地図上 情報 空間
軸 整理 。 、本 末尾 用意 索引 名前 軸 整
理 。 軸 、組 合 情報 特定 。時間 空
間 得 場所 特定 、本論文 時間 空間 軸 利用 属性 着目 。
時間 空 間 該当 属性 考 。
Twitter 投稿 即時性 高 特徴 報告 [吉田 16]。
、 投稿時間 、 記載 事柄 起
時間 推測 。空間 情報 、 付与 位置情報 利
用 考 。 、位置情報 付与 、欠
損 空間 情報 推定 必要 。我々 着目
、 位置 注目 。
位置 、 特徴 表 重要 属性 。 Twitter 利用
主 滞在 場所 、 周辺 考
、 位置 補完 使 。 、 位置 利用
、検索 推薦結果 。様々 場所 検索
、検索結果 表示 、 属性 利用 結果 表示
、 場所周辺 結果 提示 。商品 推薦 同様
。他 、 利用 考 、
住 重要 要素 。 特定 商品 興味
第2章 9
対 送 集 、 提供範囲 限
、 提供範囲内 情報 活用
、 有利 進 。 、 上
言及 集 、 分析 位置 、
住 流行 。以上 例
位置 、 主 滞在 場所 、住 場所 考 。
他 勤務先 位置 考 。
Twitter 得 具体的 位置 関 、
入力 「場所」 、 投稿 位置情報付
付与 地理座標 。自身 場所 入力
少 [Hecht 11,山口 13] 、全 中 位置情報付 占
割合 低 [Sloan 15] 知 、 位置情報 多 利用
推定 必要 。我々 Twitter 利用 主 滞在 場所(
) 注目 、本論文 位置情報付 求 、 主
滞在 場所 居住地 。
2.4 属性 伝搬
付属 情報 。例 、
年齢 嗜好、居住地 様々 属性 持 。
属性 、 付属 、
。 用
属性 利用 、 属性 公開 限 、欠損
属性 他 情報 推定 必要 述 。本論文 、属性 推定
、似 属性 持 間 関係 利用 考 。
人 似 好 持 他者 関係 持 特徴 、 性質
上 関係 存在 [McPherson 01]。 「似 好
持 同士 以外 比 持 」 特徴 、
間 関係 属性 推定 可能 。例 、 間 関係 地理的距離 関係 調査 研究 [Kulshrestha 12]、 上 関係 用
位置 推定 試 多数 [Jurgens 15, Zheng 18, Luo 20]。居住
地以外 属性 、職場 通 大学、学部 属性 、
用 推定 研究 [Mislove 10]。
用 属性推定手法 、言語 依存 適用 利点 。
属性推定 用 場合、 推
第2章 10
定性能 影響 。 、 属性推定
働 調 必要 。
、 付属 加 、 形状 関 。具体的
、 構築 間 関係 、 上
持 属性 分布 考 。
2.5 伝搬 強
用 属性推定手法 、似 属性 持 同士 関係 利用
。 関係 利用 属性 推定 、 属性
伝搬 解釈 。 、 間 関係 同 強
考 、伝搬 強 関係 、
変 考 。
持 中心 生 、
伝搬 強 変 考 。 上
考 上 、直接得 情報 。
得 情報 記入 、 知 手
考 。
2.6 中心性
限 、 構造 様々 研究 用 。例
、共著 研究者 分析 、引用 論文 分析、Web
Web 評価 。 、重要
発見 一般的 、汎用的 分析手法 開発
。 、本論文 、 ( ) 重要度 測 指標 中心性
導入 。 中心性 、
多 度合 測 。中心性
一種 考 。 重要性 、 推定 利用
考 。
対 計算 中心性 以下 小節 述 。
説明 、以下 定義 変数 用 。 有向単純 。
頂点 、辺 呼 。 隣接行列表
現 A 。隣接行列A 要素 、 j i 向
Aij = 1、 Aij = 0 値 持 。 i 入 総数 入
第2章 11 次数kiin、 i 出 総数 出次数kiout 。
2.6.1
次数中心性次数中心性 、 持 数 重要度 指標
。有向 向 、入次数中心性 出次数中心性 。次
数 多 関係 持 表 値 、多
持 重要 指標 。
入次数中心性xini 出次数中心性xouti 次 式 定義 。 xini =∑
j
Aij =kini (2.1)
xouti =∑
j
Aji =kouti (2.2)
Twitter 関係 *4 、入次数中心性
持 数、出次数中心性 数 該当 。多
持 重要 入次数中心性 、多
重要 出次数中心性 。高
入次数中心性 持 多 知 有名 、高 出次数中心
性 持 多 情報源 購読 考 。
2.6.2 PageRank
PageRank [Page 98] 、単純 多 関係 持 、重
要 持 重要 考 中心性 。
、 指 持 和 。
、各 伝搬 、 持 出 数 割
、大 値 持 多 出 持 伝搬
。
PageRank 次 式 表 。
xi =α∑
j
Aij
xj
koutj +β (2.3)
、α β 定数 。β 項 、 0 (入次数 0
) 初期値 重要度 持 表 。
*4 u v u v 方向 作 構築 。
第2章 12
PageRank Google Web 用 使 提案
[Page 98]。 後、Web 間 表現 Web
対象 使 、様々 対象 応用
利用 [Gleich 15]。
Twitter 、PageRank 入次数中心性
同 、有名 高 値 与 。 、多
高 値 持 。 、 、高 持
高 持 。 、 、
権威 先 受 渡 理解
。例 、多 有名人 数
名 場合、 、 有名人 親 有名人
関 強 考 、重要度 高 (
上 影響力 ) 考 。
2.6.3 HITS
HITS(Hyperlink-Induced Topic Search)[Kleinberg 99] 、各 対 2種 類 重要度 考 指標 。PageRank 高 中心性 持 指
高 値 Authority 、高 中心性 持 指
高 値 持 Hub 考 。 、高 Hub 持
指 高 値 Authority 、高 Authority 持
指 高 値 Hub 定義 。
Authority xi Hub yi 次 式 定義 。
xi =α∑
j
Aijyj (2.4)
yi =β∑
j
Ajixj (2.5)
、α β 定数 。
Twitter 、多 持
高 Authority 持 、多 高 Hub
持 傾向 。 、 、 少 高
Hub 持 高 Authority 持 、
少 高 Authority 持 高 Hub
持 。PageRank 異 、各 伝搬 Authority 場合
Hub、Hub 場合 反対 Authority 、有名人(Authority 高 )
第2章 13
少数 知人 、 重要
。代 、多 有名人 (Authority 低
、Hub 高 ) 、有名 高
Authority 与 。例 、Authority 値 Twitter 利用
特定 、Hub 値 情報収集 目的
特定 考 。
14
第 3 章
居住地推定法 分析
3.1 本章 背景
用 居住地 推定 試 多数 。
作成 際 利用 間 関係 変 、異 形
。 間 関係 地理的 近 友人 割合 変化
[McGee 11] 報告 、居住地推定 性能 変化 明
。
本章 、 間 関係 変 作成 複数 用 、
居住地推定 与 影響 調査 。 調査 、
間 関係 居住地推定 最 有効 示 。 、代表的 居住地推定手法
推定傾向 、 形状 影響 受 示 。
3.2 関連研究
居住地推定 関 研究 、主 Twitter 用
検証 。Twitter 分析 研究開発 居住地 属性 利用
[奥村 12] 、自身 居住地 入力 少 [Hecht 11,山口 13]。 、 居住地 推定 試 多数 。居住地推定 手法 、推定 利用 情報 違 、 友人関係 利用
手法、投稿内容 利用 手法、 両方 組 合
利用 手法 分 。
Twitter 関係 手法 、友人 居住地
中 最 出現数 多 居住地 推定 手法 提案 [Davis Jr. 11]。
、Sadilek 居住地推定 予測 同時 解 手法 提案 [Sadilek
12]。McGee 友人関係 分析 、決定木 信頼度 決 、尤度 用
[Backstrom 10] 拡張 [McGee 13]。Rout 、居住地推定
住 都市 分類問題 、SVM 用 居住地 推定
第3章 居住地推定法 分析 15
[Dominic 13]。Jurgens 、 作成 利用 、友人
情報 利用 推定手法 繰 返 適用 多 居住地 推定
示 [Jurgens 13]。
手法 、Cheng 本文 含 地理的 単語 利用
居住地 推定 手法 [Cheng 10]。Kinsella 本文 作成
言語 推定 [Kinsella 11]。 手法 、Li
本文 含 地名 用 手法 [Li
12b]。 複数 居住地 推定 方法 提案 [Li 12a]。Chen
強 考慮 Li 手法 拡張 [Chen 16]。
居住地推定 多 手法 提案 、実験条件 異 、論文 情
報 結果 比較 。 、新 手法 提案 、
提案 手法 比較 分析 研究 。Jurgens [Jurgens 15]
作成 利用 、 手法
統一的 評価 。
提案 手法 関係 使 傾向
、本章 関係 関係 着目 調査 。
、 関係 作成 4種類 用 、 居
住地推定 与 影響 調査 。 調査 、 間
関係 居住地推定 最 有効 示 。 、代表的 居住地推定手法 推定
傾向 、 形状 影響 受 示 。Twitter
調 困難 、本章 位置情報付 投稿
調査 。
3.3 作成 特徴
本調査 、Twitter 居住地 、 関係
利用 、居住地推定 性能 調 。 作成方法 詳細
3.3.1節以降 述 。
3.3.1
位置情報付 居住地調査 利用 居住地 位置情報付 決定 。 主
居住地周辺 活動 考 、 位置情報付 投稿
主 場所 居住地 。本研究 、 手法
提案 主要 先行研究 [Davis Jr. 11] 同様 、居住地 市区町村
第3章 居住地推定法 分析 16
。 、森國 [森國 15] 同様 方法 総務省統計局 境界 作成 。位置情報付 地理座標情報(coordinates) 座標 含
(日本国内 市区町村) 求 、 最 数 多 居住地 。
Twitter Streaming API*1 使用 、2014年 日本 包含 矩形*2 中 投稿 位置情報付 (250,564,317件) 集 。森國 [森國 15] 同様 Bot
投稿 除外 、2014年 5回以上位置情報付 投稿 条件 設定 、614,440 居住地 付与 。
3.3.2
関係本研究 、 間 関係 利用 作成 。
集合*3 集合*4 2種
類 情報 取得 、 合 間 関係 利用 。居住地
付与 614,440 周 関係 2015年7月 取得 。必要 情報
取得 472,350 調査 使用 。
Twitter 関係 間 関係 、 関係
(followee)、 関係(follower)、相互 関係(mutual)、
関係(linked) 4種類 考 。居住地推定
最 有効 関係 特定 、 関係 4種類
作成 。本研究 、図 3.1 示 、 、
間 関係 有向 作成 単純有向 。作成
、 隣接 、 関係(followee
follower ) 。図 3.1 、 B A 隣接
。
3.3.3
特徴本節 、作成 統計量 調 、 間 関係 変 作成
特徴 明 。 、居住地 付与
違 調査 。
間 関係 変 作成 特徴 明 、
*1https://dev.twitter.com/streaming/reference/post/statuses/filter(viewed 2016-11-04)
*2北緯20度 50度、東経110度 160度 範囲。
*3https://dev.twitter.com/rest/reference/get/friends/ids(viewed 2016-11-04)
*4https://dev.twitter.com/rest/reference/get/followers/ids(viewed 2016-11-04)
第3章 居住地推定法 分析 17
ইज़টشखथःॊ
قĨŽůůŽǁĞĞك
ইज़টشऔोथःॊ
قĨŽůůŽǁĞƌك
ৼ൩ইज़টش قŵƵƚƵĂůك
ইज़টشखथःॊ
ऽञमऔोथःॊ
قůŝŶŬĞĚك
図3.1: 関係 4種類 間 関係
基本的 統計量 調 。 大 、作成 有向
G(V, E) 次数 1以上 数|V′|、 数|E| 調 。 、推定 隣接 (友人) 利用 、居住地 付与 出次数(隣接
数) 平均Kout 標準偏差Sout、中央値Mout 調 。加 、隣接 利
用 手法 推定 数 、居住地 付与 出次数
0 数|Iout| 調 。 、次数 1以上 集合 V′ 、次数 0
以上 集合 V 仮定 、3.3.2節 述 居住地 付与
隣接 取得 都合上、観測 存在 。 、
|V| ≥ |V′|+|Iout| 関係 成立 、|V| 正確 値 算出不能 、本
稿 V 議論 。
3.3.2節 述 、居住地 付与 周 関係 取得 、4種
類 作成 。居住地 付与 関係
、居住地 付与 。 、収集
作成 、居住地 付与
含 。 、 関係 取得 起点
居住地 付与 、居住地 付与 同士 関係
取得 。以上 制約 、取得 関係 利用 作
成 、取得 関係 居住地 付与 同士 関係
作成 区別 統計量 調 。表 3.1 調 統計量 示
。 、3.4節 後述 、本研究 隣接 利用 手法 居住地 推定性能 評価 、実験 、居住地 付与 同士 関係 作成
(表 3.1b) 使用 。
作成 際、 関係 関係