フォロワの分析手順

第 5 章フォロワのユーザプロフィールを用いた地域の特徴分析

5.3. 分析方法

5.3.2. フォロワの分析手順

提案する分析の流れは大きく分けて，データ収集，データの前処理，変数項目の作成，

特徴量の算出，可視化の5段階に分かれる．以下では，各手順で行う内容やその目的，使用する手法やツールについて具体的に説明する．

①

データ収集（ユーザプロフィールの抽出）

対象となる各観光協会が運営する Twitter アカウントのフォロワ全員のユーザプロフィールを，Twitter APIを用いて抽出する．そして，観光協会ごとにその全フォロワのユーザプロフィールをまとめた「フォロワプロフィール集」を作成する．

② 前処理（ユーザプロフィールにおける頻出語の抽出）

手順①で作成した観光協会ごとのフォロワプロフィール集を形態素解析し，各フォロワプロフィール集における頻出語を抽出する．形態素解析にはオープンソース形態素解析エ

ンジンの MeCab を使用し，MeCab で使用される辞書には，オンライン辞書サービスの

Wikipedia⁽⁴⁾とはてなキーワード⁽⁵⁾に登録されている単語を登録する処理を事前に行ってい

る．形態素解析やMeCabに関する説明は4.3.2で述べている．

③

変数項目の作成（頻出語のクラスタリング）

様々な観光協会のフォロワプロフィール集に共通して頻出する単語を明らかにするため，全190観光協会のプロフィール集の和集合における頻出語を抽出する．さらに単語間出現傾向の類似度を表すJaccard距離を算出する．Jaccard距離は1からJaccard係数を引いたものであり，共起関係をもとに以下の式で計算される．|A∪B|は単語Aまたは単語Bが含まれた集合（プロフィール数）を表しており，|A∩B|は単語Aと単語Bの両方が含まれた集合を表している．つまり，単語AまたはBを含む集合の中で単語A，Bが共起している確率が高いほど単語間のJaccard距離は近くなる．

|A∪B| - |A ∩ B|

|A∪B|

Jaccard距離＝

Jaccard係数以外にも共起尺度としてSimpson係数やDice係数などが用いられる場合があり，それぞれ以下の式で算出される．

Simpson 係数は分母として出現数の少ない方の集合を使用するため，出現数の少ない単

語は共起している単語との係数が大きくなりやすい．Dice 係数は Jaccard 係数に類似しているが，常に集合の平均を用いるDice係数に対してJaccard係数は差集合の濃度に反比例するという特徴がある．今回の分析ではどのユーザプロフィールにも出現しやすいような出現回数の多い単語が他の単語との類似度が高くなるのを防ぐため，Jaccard係数を用いた単語間の距離（Jaccard距離）を算出する．そしてJaccard距離を用いてクラスタ分析（Ward 法）を行い，出現傾向が類似した単語同士のグループ化を行う．さらに，抽出されたクラスタを「頻出語クラスタ」と呼び，フォロワの特徴を把握するための変数項目として使用する．

単語に基づいて特徴量を算出する方法としては，ソーシャルメディア以外の情報媒体

（例えばガイドブックや新聞など）や，マーケティング担当者へのインタビューなどから観光地に関連する単語をあらかじめ選定し，それらの単語を用いるなどの方法も考えられる．ただし，今回の分析では，まず「フォロワのユーザプロフィールの傾向は観光地によって異なり，その傾向から地域の特徴を把握できる」ことを明らかにする必要がある．したがって，今回の分析では極力恣意的な要素を取り除くため，事前の分類基準を設定せず，

多くのTwitterユーザが共通して使用する単語を特徴量算出に使用する．

④

特徴量の算出（頻出語出現率の算出）

観光協会ごとに「頻出語出現率」を算出する．頻出語出現率は以下の式で算出される．

|A ∩ B|

Min(|A|,|B|)

Simpson係数＝

2|A ∩ B|

|A| + |B|

Dice係数＝

頻出語クラスタ内の単語をプロフィールに含むフォロワ数観光協会アカウントのフォロワ数

頻出語出現率はどの程度のフォロワがプロフィール中に頻出語クラスタ内の単語を使用しているのかを表す指標である．算出された値は，各観光協会のフォロワの特徴を分析するための変数として使用する．

⑤

可視化（アカウント間の類似性の可視化）

手順④で算出した頻出語出現率に基づき観光協会アカウント間の類似性を表す距離を算出する．そして，それらを二軸の図に投影したポジショニングマップを作成する．これをもとに他の観光地とのフォロワの特徴の類似性や独自性を把握する．距離の算出方法は，

西村らの研究（2015）を参考とする．西村ら（2015）は，有名人に関するツイートによって有名人同士の人物関係を主成分分析，多次元尺度構成法（以下ではMDSとする），自己組織化写像によってそれぞれ可視化し，それぞれの手法の妥当性と発見性について比較した結果，MDSを最も可視化手法として優れていると結論付けた．また，本研究におけるこの分析の目的はあくまで各地域のフォロワの類似性を可視化し把握することであり，合成変数によってフォロワの特徴を定量的に説明することではない．これらを踏まえ本研究ではMDSを用いてポジショニングマップを作成する．

MDSは，対象間の距離や類似性に基づき，対象を低次元空間に布置する手法である．類似したものは近くに，類似していないものは遠くに配置されるため，視覚的に対象間の類似性を把握することが可能である．MDSは対象間の距離をデータとする計量MDSと，順序尺度で測定された類似性データを解析する非計量 MDS に大別される．本研究では，変数間の規模の差を取り除くためや，外れ値や分析対象の増減による影響を最小にするため，

頻出語出現率の大小関係にのみ着目した非計量MDSを行う．

非計量MDSでは，順序尺度である親近性sij（_iと_jの親近性）を距離データdij（_iと_jの距離）とした際に，

ij kl kl

s d d

s   

以上の関係を満たすように対象間の位置が決定される．位置を決定するためには，はじめに仮の位置を決め，点間距離が上記の関係を満たすように，対象の座標を徐々に改善し，

最適な位置関係となる各対象の座標を求める．その過程で対象間の点間距離が上記の関係をどの程度満たしているのかを示すストレスSを算出する．ストレスは以下の式によって

算出される．







 2

*) (

ij j

ij ij

d d d S

非計量 MDS では，このストレスが最小となるように反復手順で対象の配置を改善していく．本研究ではこの反復上限を50とした．

ドキュメント内 Twitter データを用いた観光対象に対する (ページ 107-111)

第 5 章 フォロワのユーザプロフィールを用いた地域の特徴分析