分類モデルの作成方法

第 4 章非個人アカウントの分類手法の提案

4.3. 認証アカウントと非認証アカウントの分類

4.3.2. 分類モデルの作成方法

前述の教師データを用いて以下の手順でフォロワの分類モデルを作成する．なお，作成

の手順はTwitterデータを用いてアカウントの情報を推定した先行研究（池田ら 2012；石

野 2015）を参考にした．ソーシャルメディアマイニングにおいては，基本的に属性の推定

には，ユーザの投稿内容からキーワードを取り出し，それをもとに分類器を作る（榊・松尾 2014）．本研究では，ユーザの投稿ではなく，Twitterアカウントのユーザプロフィールからキーワードを抽出するが，分類までの流れは他の研究と同様である．

① 頻出語の抽出

4.3.1で述べたアカウントのユーザプロフィールに頻出する単語を抽出するため，各アカ

ウントのユーザプロフィールを形態素解析し，各単語の出現数を算出する．その中から出現数の多い単語（頻出語）を分類のために使用する．形態素解析は認証アカウントのユーザプロフィールと非認証アカウントのユーザプロフィールとで二回に分けて行った．形態素解析とは，英語などのように単語の切れ目がスペースで示されている言語では，単語を構成している形態素を認定する処理を指すが，日本語のように切れ目が明白でない言語の場合は，単語の認定までを含めて形態素解析と呼ぶ（吉村 2012）．日本語の単語や形態素の定義については言語学でも統一されていないが，自然言語処理ではシステムの辞書に登録されているものが形態素であり，処理の効率や精度の向上を目的に複数の単語をまとめて一つの形態素として扱うこともある（吉村 2012）．本研究では，形態素解析に先行研究でも用いられているオープンソース形態素解析エンジンのMeCab⁽⁵⁾を使用した．図 4-3は

MeCabによって「東京都に住む」という文を形態素解析した場合のイメージである．MeCab

は図 4-3に示すように，文を考えられるあらゆる形で分割し，連接コストと生成コストの和が最小になる解を選択する最小コスト法によって形態素解析を行っている（Kudo et al.

2004）．各コストは開発者によって事前に設定されている．また，ユーザプロフィールの抽

出にはTwitter, Incによって公開されているTwitter APIを使用した⁽⁴⁾．

図 4-3 形態素解析のイメージ

（工藤 2014より引用）

② 特徴量の選択・データセットの作成

①で抽出した単語の有無をアカウントの分類のための手がかりとなる特徴量（feature）

として使用する．具体的には，認証アカウントのユーザプロフィールの頻出語の有無（特徴量1），非認証アカウントのユーザプロフィールの頻出語から特徴量1を除いたもの（特徴量 2）を使用する．さらに，ユーザプロフィールが空欄あるいは極端な短文のアカウントは非認証アカウントである可能性が高いと考えられるため，ユーザプロフィールの文字数（特徴量3）も特徴量として使用する．本研究では，以上三つの特徴量を使用し，表 4-1 に示すように四通りの組み合わせのデータセットを作成する．具体的には，特徴量となる単語と，各アカウントのユーザプロフィールにおける各単語の出現の有無，そして，各アカウントのユーザプロフィールの文字数からなる行列を作成する．データセット4の例を表 4-2に示す．

表 4-1 データセットごとの特徴量の組み合わせ

特徴量1 特徴量2 特徴量3

データセット頻出語有無

（認証アカウント）

頻出語有無

（非認証アカウント）

文字数

1 ○

2 ○ ○

3 ○ ○

4 ○ ○ ○

表 4-2 データセットの例

単語₁ 単語₂ ．．．単語n 文字数ユーザプロフィール1 1 0 ．．． 1 30 ユーザプロフィール2 0 0 ．．． 1 10

．．．．．．．．．．．．．．．．．．ユーザプロフィールx 1 1 ．．． 1 80

③ 機械学習による分類モデルの作成

前述のデータセットを使用し，機械学習による認証アカウントの分類を行う．機械学習には先行研究（Ikeda et al. 2013；池田ら 2012；石野 2015；伊藤ら 2013；榊・松尾 2014；

杉谷ら 2013）で用いられていた SVMによる学習を行い，RBFカーネルを用いる．また，

比較の対象として決定木学習を使用する．決定木学習を使用する理由の一つは，SVMはある予測がされた理由を理解することが困難であるのに対し，決定木学習は非線形モデルでありながら結果の可視化が容易なためである（Müller & Guido 2017）．また，SVMでは規模が異なる特徴量のスケールを同じにする作業（スケーリング）が必要であるのに対し，

決定木は個々の特徴量が独立に処理されるため，スケーリングを必要としない．さらに，

処理速度もSVMに比べて決定木学習の方が高速である．このように決定木学習はSVMと比較した際にいくつかの利点が存在する．また，佐野ら（2012）の研究では，決定木学習の精度が SVM よりも高精度であったと報告されている．分類の精度が同程度であれば，

結果の可読性，処理の複雑さ，処理時間などの観点から，決定木学習を用いた方が，自然言語処理や機械学習に関する専門家が不在の可能性が高い日本のデスティネーション・マーケティングにおいては有用であると考えられる．これら二つ以外では，ニューラルネッ

トワークというアルゴリズムが「ディープラーニング」という名前で注目を集めている．

ニューラルネットワークは，大量のデータと時間を費やすことで他のアルゴリズムよりも精度の高い複雑なモデルを構築することが可能である（Müller & Guido 2017）．ただし，高精度なモデルを構築するためには大量のデータと時間，慎重なパラメータの調整が必要であるとされており，また，特徴量の種類が同質である必要がある（Müller & Guido 2017）．今回の分析では単語の有無とプロフィールの文字数という異なる質の特徴量を使用することに加え，今後モデルの改善のためにフォロワ数など，さらに質の異なる特徴量を使用する可能性も考えられるため，本研究ではニューラルネットワークを比較の対象とはしていない．

分類には機械学習ソフトウェアの Weka⁽⁶⁾を使用し，10 分割交差検証法によって正答率を算出する．10分割交差検証法とは，ランダムにデータを10等分して，その9つ分を訓練データとして学習し，残りの1つ分をテストデータとして性能を評価する．さらに，テストデータ分を入れ替えながら，これを10回繰り返し，最後に性能の平均を計算する方法である（竹村 2017）．また，正答率とは，提案手法によって実際の分類の通りに正しく分類された割合である（竹村 2017）．

ドキュメント内 Twitter データを用いた観光対象に対する (ページ 82-86)

第 4 章 非個人アカウントの分類手法の提案