話題と感情に基づくフォロイー推薦と評価

(1)

DEIM Forum 2016 B4-1

話題と感情に基づくフォロイー推薦と評価

山本

湧輝

†

_{熊本忠彦}

††

_{灘本明代}

†††

†

甲南大学大学院自然科学研究科

〒 658-8501 兵庫県神戸市東灘区岡本 8-9-1

††

千葉工業大学情報科学部

〒 275-0016 千葉県習志野市津田沼 2-17-1

†††

甲南大学知能情報学部

〒 658-8501 兵庫県神戸市東灘区岡本 8-9-1

E-mail:

†

††

†††

あらまし現在，人々は Twitter を利用して気軽に自分の得た情報や思ったことを発信できるようになっている．

Twitter では任意のユーザをフォローすることで，そのフォローしたユーザ（フォロイーと呼ぶ）がツイートした内容

を自分のタイムラインに表示させることができる．これまで我々はユーザの興味のある話題の類似性だけでなく，そ

の話題に対する感情の類似性も考慮してフォロイー候補を推薦する手法を提案してきた．本論文では，この提案手法

を 2 種類の従来手法（フォロイー・フォロワー関係を考慮した推薦手法および話題の類似性のみを考慮した推薦手法）

と比較し，提案手法の有用性を示す．

キーワード

話題の類似度算出，感情抽出，Twitter（ツイッター），SNS

1. はじめに

現在，人々はTwitterを利用して気軽に自分の得た情報や思ったことを発信できるようになっている．その気軽さから Twitter上には数多くのユーザが発信した膨大な量の情報が存在している．Twitterには任意のユーザをフォローすることで，そのフォローしたユーザ（フォロイーと呼ぶ）がツイートした内容を自分のタイムライン（TL）に表示させることができる機能がある．このとき，ユーザをフォローする基準としては，実世界での友人や知人，共通の趣味・嗜好を有するユーザ，有益な情報をツイートしているユーザ，好きな有名人（芸能人や政治家，スポーツ選手など）など様々な基準が考えられる．そしてユーザをフォローすることで自分のTLを充実させることが可能である．2015年8月現在，世界には3億200万人のTwitter 月間アクティブユーザがいる[1]と言われており，Twitter上には数多くのユーザが存在している．この中からユーザがフォローしたくなるようなユーザ（すなわちフォロイー候補）を探し出すのは困難な作業であり，ユーザにとって実質的かつ潜在的な不利益となっている．このような問題を解決するために，任意のユーザに対してそのユーザに合ったフォロイー候補を推薦する研究が数多く行われている．その中でも代表的なフォロイー推薦手法として2種類の手法が挙げられる．１つ目は，フォロイー・フォロワー関係を考慮した推薦手法である．この推薦手法ではユーザ同士のつながり（フォロイー・フォロワー関係）に基づいてフォロイー候補が推薦される．例えば，北村ら[2]はリプライ等のユーザ間関与に基づく2-hopユーザ推薦モデルを提案している．また，Scottら[3]はフォロー関係から友人を推薦する手法を提案している．2つ目は，話題の類似性を考慮した推薦手法である．この推薦手法ではユーザがツイートした話題と似た話題についてツイートしているユーザがフォロイー候補として推薦される．例えば，Pennacchiottiら[4]は，協調フィルタリング手法を用いてツイートの話題からユーザ間の類似度を計算し，フォロイー候補を推薦するシステムを提案している．また，Gurini ら[5]は，クラスタリング手法を用いてツイートから話題を抽出し，共通あるいは類似の話題があるかどうかに基づいてフォロイー候補を推薦するシステムを提案している．我々は話題の類似性を考慮した推薦手法において，話題が類似しているユーザであってもその話題に対しての感情が異なる場合は推薦候補として相応しくないという問題点に着目し，話題と感情を考慮したフォロイー推薦手法を提案してきた[6] [7]．例えば，阪神タイガースについて多くツイートしていても，タイガースに対して常に好意的な阪神ファンとは限らない．アンチ阪神ファンで，阪神の悪口ばかりツイートしているユーザもいれば，阪神ファンではあるけれど，阪神のことを野次ってばかりのユーザもいる．このように，ツイートの話題が類似しているからといって，それぞれのユーザのその話題に対する感情を見てみると，必ずしもフォロイー候補として相応しいとは言えない場合もある．任意のユーザに対し相応しいフォロイー候補を推薦するためには，Twitter上のすべてのユーザのツイートから話題と感情を抽出する必要があるが，Twitter上には非常に多くのユーザが存在しているため現実的ではない．そのため，本研究ではフォロイー推薦のはじめの一歩として，任意のユーザに対し関係の近いユーザをフォロイー推薦の範囲とする．すなわち，推薦の対象となるTwitterを閲覧しているユーザ（本論文では「閲覧ユーザ」と呼ぶ）のフォロイーがフォローしているユーザ（すなわちフォロイーのフォロイーであり，本論文では「ﬀ-ユーザ」と呼ぶ）をフォロイー推薦の範囲とし，この中からフォロイー候補を決定することにする．また，ユーザのTwitterの使い方にも様々なパターンがある．例えば，自分と同じ興味や趣味についてツイートしているユーザをフォローすることで情報を得たいと思っているユーザもいれば，現実世界での知人や友人をフォローすることでコミュニ

(2)

表 1 フォロイー推薦に関する研究の分類文献フォロイー話題の感情の番号・フォロワー関係類似性類似性 [16] ○ [17] ○ [18] ○ [19] ○ [20] ○ [21] ○ △ [22] △ △ ケーション手段として利用したいと思っているユーザもいる．このように使い方の異なるユーザに対して同じ推薦手法を適用することは不適切であると考えられる．そこで，本研究では Twitterの使い方に基づいてユーザをタイプ分類し，それぞれのユーザタイプ毎にどういった推薦手法が有効であるかを明らかにする．以下，2.章では関連研究について述べ，提案手法と従来手法の違いとその立ち位置を示す．3.章では話題とその話題に対する感情を考慮した提案手法について述べ，4.章では従来手法との比較実験により提案手法の有用性を示す．最後に5.章では本論文のまとめと今後の課題について述べる．

2.

3. 提案手法

本研究では，閲覧ユーザの興味のある話題との類似性とそれらの話題に対する感情の類似性の2つの観点からユーザを評価し，フォロイー候補を推薦する．具体的にはまず，ユーザの興味のある話題との類似性を調べるために，閲覧ユーザのツイー

(3)

トと全てのff-ユーザのツイートをTwitter Rest API（注1）を用いて取得し，それぞれのff-ユーザごとに，閲覧ユーザと各 ff-ユーザのツイートをクラスタリング手法を用いて分類する．そして，各クラスタに分類された両者のツイートの分布から両者に共通の話題を抽出する．次に，それぞれの共通の話題に対する感情の類似性を調べるために，そのクラスタに含まれている閲覧ユーザのツイートとff-ユーザのツイートの感情値（感情の強さを定量化したもの）を算出する．以上の結果から，共通の話題が多く，それぞれの共通の話題に対する感情値が近い ff-ユーザをフォロイー候補として推薦する． 3. 1 共通の話題の抽出提案手法は，閲覧ユーザと各ff-ユーザの共通の話題を両ユーザのツイートから抽出するために，以下の処理を行う．まず，Twitter Rest APIを用いて閲覧ユーザとff-ユーザの

ツイートをn個ずつ収集し，計2n個のツイートを取得する．本論文ではn個のツイートを新着した200個のツイートとし，合計400個のツイートを取得する．次に，取得したツイートから共通の話題を抽出するために，ツイートのクラスタリングを行う．このクラスタリングには短文のクラスタリングに向いている[28]とされているRepeated Bisection法[29]を用いる（注2）_{．クラスタリングの結果，それぞれのクラスタには複数} のトピック（話題を示す名詞）が含まれているが，本研究ではクラスタの中心ベクトルに最も近いトピックをそのクラスタの話題とする．今回用いたクラスタリングツールbayonでは分割クラスタ数を指定することができるが，我々の予備実験の結果から分割数は10クラスタとした．これら分割されたクラスタから共通の話題を抽出するために，我々は以下の2つのポイントに着目する． • クラスタ内における閲覧ユーザとﬀ-ユーザのツイート数の比率あるクラスタ内に閲覧ユーザとﬀ-ユーザのツイートが混在している場合，そのクラスタの話題は共通の話題となる可能性があるが，その比率が10:1のように偏っている場合と1:1のように均等な場合を比べてみれば，均等な場合の方が共通の話題としてより適切であると考えられる．そこで，i番目のクラスタにおける両者のツイート数の比率Riを以下の式を用いて求め，その値が閾値TR以下のクラスタの話題を両者に共通の話題とする． Ri= |Xi− Yi| |Xi| + |Yi| ここで，_|Xi|はi番目のクラスタに属するユーザXのツイート数を示し，_|Yi|はi番目のクラスタに属するユーザY のツイート数を示す． • ツイートの凝集性 Repeated Bisection法はハードクラスタリングであるため，クラスタリングの対象となったツイートは必ずいずれかのクラスタに分類される．そのため，相互に関連性のない話題を含むツ（注1）：https://dev.twitter.com/rest/public （注2）：実際には Repeated Bisection 法が実装されたクラスタリングツールである bayon [30] を用いるイートのクラスタが存在する場合がある．本研究ではこのクラスタをガベージクラスタと呼び，ガベージクラスタの話題はたとえ二人のユーザのツイート数が同じであっても，共通の話題とは言いがたいため，事前に削除する必要がある．そこで，ガベージクラスタ内のツイートの話題に関連性が乏しいことを利用してガベージクラスタを選別し，除外することにする．具体的には，i番目のクラスタCiのセントロイドciとそのクラスタに含まれるツイートxのコサイン類似度をツイートごとに求め，その平方和をクラスタCiの凝集性Aiと定義し，その値が閾値TA未満のクラスタをガベージクラスタとして除外する． Ai=

∑

x∈Ci (x· ci |x||ci| )2 以上より，両者のツイートの比率Riが閾値TR以下であり，かつツイートの凝集性Aiが閾値TA以上であるクラスタを「共通話題クラスタ」と呼び，共通話題クラスタの中心ベクトルに最も近いトピックを共通の話題として扱うことにする．なお，それぞれの閾値は我々の予備実験により，TR= 0.25，TA= 0.60 とする． 3. 2 共通の話題に対する感情値算出次に，抽出された共通の話題毎に閲覧ユーザとﬀ-ユーザの感情ベクトル（8次元の感情軸に対する8個の感情値からなるベクトル）を算出し，その類似度を求める．具体的には，共通話題クラスタ内に含まれるそれぞれのツイートから我々が構築した感情語辞書を用いて8次元の感情軸に対する8個の感情値（8次元のベクトル）を求め，この感情ベクトルをそれぞれのユーザ毎に足し合わせた結果から得られる感情ベクトルを，その共通の話題に対するそれぞれのユーザの感情ベクトルとする．そして，このようにして得られる2つの感情ベクトルに対してコサイン類似度を求め，閲覧ユーザとﬀ-ユーザのその共通の話題に対する感情の類似度とする． 3. 2. 1 感情語辞書ツイートから感情値を算出する際に，ツイートを構成する単語毎に感情の強さを定量化した感情語辞書が必要となる．本研究では，感情語辞書を構築するための手法として，熊本ら[25] が提案している感情語辞書構築システムを用いる．熊本らの手法は，感情語辞書を構築するために，大量のデータに現れる任意の単語とあらかじめ定義してある感情語群との共起関係を調べ，その結果に基づいてそれぞれの単語の感情値を数値化している．また，感情値とはそれぞれの感情軸における感情の程度を1∼0の実数値として算出したものである．しかしながら，熊本らが構築した感情語辞書では，新聞記事の印象を表現するのに適した3つの感情軸（「楽しい⇔悲しい」，「うれしい⇔怒り」，「のどか⇔緊迫」）が用いられており，Twitter上のツイートに対する感情を表現するのに適しているとは言えない．その理由は主に2つあり，1点目として， Twitter上のツイートは新聞記事よりユーザの日常と深く関係しており，様々な感情を有している場合が多いという点が挙げられる．一方，我々は，これまでの先行研究[14]において，国語学者の中村が提案している10次元の感情軸[15]を我々が行っ

(4)

表 3 ツイートの感情値の算出例ツイート「野球はすごく面白い」感情語喜・好安昂哀怖怒・厭驚恥凄い 0.14 0 0 0 0 0.01 0.7 0.38 面白い 0.89 0 0 0 0.01 0 0.03 0.32 合計 1.03 0 0 0 0.01 0.01 0.73 0.7 ツイート「最近すごく面白くない」感情語喜・好安昂哀怖怒・厭驚恥凄い 0.14 0 0 0 0 0.01 0.7 0.38 面白くない 0 0 0 0 0 0 0 0 合計 0.14 0 0 0 0 0.01 0.7 0.38 た被験者実験の結果に基づいて整理し直すことで，ツイートの感情を表現するのに適した8次元の感情軸（「喜・好」,「安」, 「昂」,「哀」,「怖」,「怒・厭」,「驚」,「恥」）を提案している．そこで本研究では，この8つの感情軸を用いて感情語辞書を構築することにする．また，理由の2点目として，Twitter上のツイートには口語的な表現が多く，さらに表記上の揺れや文法の乱れなどから単語間の共起関係を正しく分析できない場合が多いという点が挙げられる．そこで本研究では，ツイートと同様に口語的な表現が多いが，表記上の揺れや文法の乱れが少ないYahoo!映画（注3）_のレビューデータ74,000文書を元に熊本らの感情語辞書構築システムを用いて感情語辞書の構築を行った．その結果，それぞれの感情軸に対して約5,600語∼7,500語の感情語と対応する感情値を感情語辞書に登録した．構築した感情語辞書の一部を表 2に示す． 3. 2. 2 ツイートの感情値算出 8次元の感情軸を用いてツイートの感情を決定するには， 3. 2. 1節で構築した感情語辞書を用いてツイートの感情値を算出する．具体的には，ツイートに対して形態素解析エンジン Juman（注4）を用いて形態素解析し，ツイート中の形態素と感情語辞書中の感情語のマッチングを行う．しかしながら，ツイートには乱れた表現が多く存在するため，感情語とのマッチングを正しく行うことができない．例えば，感情語辞書に「楽しかった」という感情語が登録されていても，「今日はたのしかった」というツイートからは「たのしかった」という形態素が抽出され，「楽しかった」とはマッチングしない．このような問題を解決するためにJumanには代表表記という基本語彙に付与されているIDのようなものが存在する．そこで我々は，ツイート中の形態素をこの代表表記に統一し，感情語辞書中の感情語とのマッチングを行う．このとき，Jumanに代表表記を有しているが，感情語辞書に未登録な単語は手動で感情語辞書に追加することとし，実際にあらかじめ登録してある単語と手動で追加した代表表記の合計32,326単語が感情語辞書に登録されている．一方，形態素に同形が存在する場合は曖昧な単語なので考（注3）：Yahoo!movie, http://movies.yahoo.co.jp/ （注4）：http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN 表 4 類似度算出の例 i ASi BSi Si 阪神 (20,3,12,3,4,3,3,5) (20,4,11,4,3,3,5,3) 0.99 巨人 (6,3,3,10,4,20,3,3) (3,5,5,12,3,18,5,3) 0.97 S（合計） 1.96 慮しないものとする．また，ツイートに否定語が入っている場合は正しい感情値を算出することができない．例えば，「嬉しくない」のような語の場合だと形態素解析による出力結果は形容詞「嬉しい」と形容詞性述語接尾辞「ない」に分けられる．感情語辞書とのマッチングを行うと「嬉しい」という形容詞は感情語辞書では「喜」のため，この文の感情は「喜」になってしまう．しかしながら，この「嬉しくない」は「嬉しい」を否定しているので，「喜」の感情にはならない．この問題を解決するために，熊本ら[27]は Jumanの出力結果を変換することで，否定語を正しく扱うためのルールを提案している．本論文では，この熊本らの提案している否定語についてのルールを適用することで，否定語の判定を行い，否定語を含む場合の感情語はその感情を持たないとすることで問題を解決する．このようにして求めたツイートの感情の例を表3に示す． 3. 2. 3 感情に基づく類似度算出次に，ツイートの感情値から両ユーザの類似度を計算する．まず，算出したツイートの感情値を用いて，そのツイートが含まれる共通話題クラスタの感情値を求める．3. 2節で決定した共通話題クラスタに対して以下の式を用いて，閲覧ユーザと ﬀ-ユーザの感情に基づく類似度Sを求める． S = k

∑

i=1 (ASi· BSi |ASi||BSi| )2 ここで，二人のユーザの共通話題クラスタと判断されたクラスタ数をkとする．ASiはi番目の共通話題クラスタにおける閲覧ユーザの感情ベクトルを示し，BSiはi番目のクラスタにおけるff-ユーザの感情ベクトルを示す．この2つの感情ベクトルの類似度の計算にはコサイン類似度を用い，共通の話題と判断されたクラスタ全てのコサイン類似度の平方和を計算することで，類似度Sを求める．この類似度Sが閾値TS以上のときに，そのff-ユーザをフォロイー候補として推薦する．ある閲覧ユーザとff-ユーザの阪神と巨人各々の話題に対する類似度計算の例を表4に示す．ここでの感情値は(喜・好，安，昂，哀，怖，怒・厭，驚，恥)を示す．表4より，閲覧ユーザとff-ユーザは阪神という話題に対して「喜・好」のような好意的な感情を持ち，巨人には「怒・厭」のような反感を抱いている事がわかる．その結果，この閲覧ユーザとff-ユーザは阪神，巨人という2つの共通話題において感情の類似度が高いことがわかる．

4. 実

験

4. 1 Twitterユーザのタイプ分類提案手法は，閲覧ユーザとﬀ-ユーザのツイートから共通の話題を抽出し，各共通話題に対する感情の類似度が高いユーザを

(5)

表 5 ユーザタイプ毎の実験結果のまとめ

hhhhhhh

_hh

フォロイーとの関係ツイートの内容興味・趣味日常的なコミュニケーション現実世界での知人・友人ユーザタイプ 1 ユーザタイプ 2 それ以外ユーザタイプ 3 ユーザタイプ 4 表 6 ユーザ実験に参加した被験者の特徴興味や趣味に関する現実世界での知人・友人が被験者 ID フォロイー数フォロワー数ツイートの割合フォロイーに占める割合 User1 73 68 80% 90% User2 31 38 70% 90% User3 215 270 70% 90% User4 294 326 10% 1% User5 368 420 40% 1% User6 339 172 90% 10% User7 441 351 50% 1% User8 400 362 50% 1% フォロイー候補として推薦する．これは，閲覧ユーザとﬀ-ユーザが同じ話題に対してツイートしていることを前提としている．しかしながら，ユーザのTwitterの使い方には様々なものが存在するため，必ずしも共通の話題を持つユーザが閲覧ユーザに対するフォロイー候補として適切であるとは限らない．例えば，閲覧ユーザが興味のある話題に対してツイートし且つ，その話題に対して多くツイートしているユーザをフォローしているような場合は，両者の共通の話題に対する感情の類似性に基づいて適切なフォロイー候補を推薦できる．しかしながら，少なくとも一方がTwitterをコミュニケーション手段として用いる場合は，共通の話題の抽出が困難となり，適切なフォロイー候補を推薦できない．このことから，ユーザのTwitterの使い方によって有効なフォロイー推薦手法が異なると考えられる．そこで，ユーザのTwitterの使い方をユーザタイプ毎に分類し，提案手法がどのユーザタイプに適切であるかを分析する．本研究で分類したユーザタイプを表5に示すとともに，以下でそれぞれのタイプについて説明する．〔ユーザタイプ1〕このタイプのユーザは，ツイート内容は自分の興味や趣味に関することが多いが，現実世界の知人・友人を多くフォローしており，自身のTLに表示されるフォロイーのツイートには自身の興味や趣味に関することが少ないという特徴がある．そのため，フォロイー・フォロワー関係だけからは見つけることのできないユーザを，提案手法では推薦できると考えられる．〔ユーザタイプ2〕このタイプのユーザは，ツイートの内容は日常的なものが多く，現実世界の知人・友人を多くフォローしており，知人や友人とのコミュニケーション手段としてTwitterを利用しているため，話題が多岐にわたり，共通の話題を抽出しにくいという特徴がある．そのため，話題の類似性に基づく手法では適切なフォロイー候補を推薦できないと考えられる．〔ユーザタイプ3〕このタイプのユーザは，ツイート内容は自分の興味や趣味に関することが多く，フォロイーも現実世界の知人・友人というより，共通の興味や趣味を有するユーザをフォローしている場合が多いという特徴がある．そのため，自身のツイート内容とフォローしたいユーザのツイート内容が類似していることが重要であり，提案手法が有効であると考えられる．〔ユーザタイプ4〕このタイプのユーザは，ツイートの内容は日常的なものが多いが，フォロイーは現実世界の知人・友人というより，興味や趣味が合うインターネット上のユーザをフォローしている場合が多いという特徴がある．すなわち，情報収集のためにTwitter を利用しているユーザと考えられるが，ユーザ自身のツイート内容からそのユーザの興味や趣味を抽出できない場合が多い．そのため，話題の類似性に基づく手法では適切なフォロイー候補を推薦できないと考えられる．以上の4つのユーザタイプに対してユーザ実験を行い，提案手法と既存手法がどのユーザタイプに有効であるかを明確にする． 4. 2 ユーザ実験提案手法が有効なユーザタイプを発見することを目的とし，ユーザタイプ毎に提案手法と従来手法の比較実験を行った． 4. 2. 1 実験条件 (a)閲覧ユーザ被験者となる閲覧ユーザは20代の学生8名である．各々のユーザのTwitter利用状況を以下に示すとともに，各ユーザの特徴（フォロイー数，フォロワー数，興味や趣味に関するツイートの割合，現実世界での知人・友人がフォロイーに占める割合）を表6にまとめる． • User1（ユーザタイプ1) 「政治」に対して興味を持っている閲覧ユーザであり，政治関連のニュースに関する感想や意見を多くツイートしているが，フォロイーには現実世界での知人や友人が多い． • User2（ユーザタイプ1) 「ソーシャルゲーム」に対して興味を持っている閲覧ユーザで

(6)

あり，ソーシャルゲームに関する感想や意見を多くツイートしているが，フォロイーには現実世界での知人や友人が多い． • User3（ユーザタイプ2) 「ソーシャルゲーム」と「パソコン」に対して興味を持っている閲覧ユーザであるが，フォロイーの大半が現実世界での知人や友人であり，Twitterはコミュニケーション手段として用いている．そのため，日常のありふれた話題に関するツイートが多い． • User4（ユーザタイプ2) 「サッカー」に対して興味を持っている閲覧ユーザであるが，フォロイーの大半が現実世界での知人友人であり，Twitterはコミュニケーション手段として用いている．そのため，日常のありふれた話題に関するツイートが多い． • User5（ユーザタイプ3) 「アニメ」に対して興味を持っている閲覧ユーザであり，ツイートの内容も「アニメ」に関するものが比較的多い．また，フォロイーのほとんどが現実世界での知人友人でなく，情報収集のためにTwitterを用いている． • User6（ユーザタイプ3) 「アニメ」に対して興味を持っている閲覧ユーザであり，ツイートの内容もそのほとんどが「アニメ」に関するものである．また，フォロイーには現実世界での知人友人は少なく，興味や趣味でつながっているユーザが多い． • User7（ユーザタイプ4) 「ゲーム」に対して興味を持っている閲覧ユーザであるが，ツイートの内容は興味や趣味に関するものと日常のありふれた話題に関するものとに大きく分けられる．また，フォロイーのほとんどが知人友人でなく，情報収集のためにTwitterを用いている． • User8（ユーザタイプ4) 「ゲーム」と「アニメ」に対して興味を持っている閲覧ユーザであるが，ツイートの内容は興味や趣味に関するものと日常のありふれた話題に関するものとに大きく分けられる．また，フォロイーのほとんどが知人友人でなく，情報収集のために Twitterを用いている． (b) ff-ユーザそれぞれの閲覧ユーザに対し，フォロイーのフォロイーをランダムに200名ずつ抽出する． (c)ツイート各ff-ユーザから新着の200ツイートを取得することで，結果，1閲覧ユーザにつき40,000ツイート（200名× 200ツイート）を取得する．また，それぞれの閲覧ユーザからも新着の 200ツイートを取得する． 4. 2. 2 実験提案手法と従来手法の比較実験を行う．このとき，各閲覧ユーザに自分のff-ユーザ200名分のツイートを見てもらい，実際にフォローしたいと評価したff-ユーザを正解データとした．なお，既存手法には，以下に示すように，話題の類似性を用いた推薦手法とフォロイー・フォロワー関係のみを用いた推薦手法の2種類を用意し，提案手法と比較した．表 7 ユーザ実験の結果被験者手法適合率再現率 F 値 User1 話題の類似性 0.745 0.500 0.599 (タイプ 1) フォロイー関係 0.897 0.317 0.468 フォロワー関係 0.960 0.293 0.449 相互フォロー関係 0.958 0.280 0.434 提案手法 0.789 0.549 0.647 User2 話題の類似性 0.102 0.056 0.072 (タイプ 1) フォロイー関係 0.510 0.601 0.552 フォロワー関係 0.501 0.623 0.555 相互フォロー関係 0.492 0.562 0.525 提案手法 0.082 0.052 0.064 User3 話題の類似性 0.081 0.263 0.123 (タイプ 2) フォロイー関係 0.500 0.684 0.578 フォロワー関係 0.522 0.632 0.571 相互フォロー関係 0.550 0.579 0.564 提案手法 0.095 0.421 0.155 User4 話題の類似性 0.102 0.056 0.072 (タイプ 2) フォロイー関係 0.510 0.601 0.552 フォロワー関係 0.501 0.623 0.555 相互フォロー関係 0.492 0.562 0.525 提案手法 0.082 0.052 0.064 User5 話題の類似性 0.627 0.336 0.438 (タイプ 3) フォロイー関係 0.457 0.436 0.447 フォロワー関係 0.477 0.564 0.517 相互フォロー関係 0.451 0.418 0.434 提案手法 0.649 0.573 0.609 User6 話題の類似性 0.273 0.375 0.316 (タイプ 3) フォロイー関係 0.333 0.542 0.413 フォロワー関係 0.359 0.479 0.411 相互フォロー関係 0.370 0.417 0.392 提案手法 0.293 0.708 0.415 User7 話題の類似性 0.333 0.146 0.203 (タイプ 4) フォロイー関係 0.348 0.195 0.250 フォロワー関係 0.300 0.146 0.197 相互フォロー関係 0.400 0.146 0.214 提案手法 0.400 0.146 0.214 User8 話題の類似性 0.300 0.145 0.196 (タイプ 4) フォロイー関係 0.345 0.154 0.213 フォロワー関係 0.280 0.132 0.179 相互フォロー関係 0.301 0.144 0.195 提案手法 0.35 0.146 0.206 表 8 ユーザタイプ毎の実験結果のまとめユーザタイプ適切なフォロイー推薦手法ユーザタイプ 1 提案手法ユーザタイプ 2 フォロイー・フォロワーを考慮した推薦手法ユーザタイプ 3 提案手法ユーザタイプ 4 フォロイー・フォロワーを考慮した推薦手法 (1)既存手法：話題の類似性を用いた推薦手法話題の類似性を考慮した推薦手法として，提案手法の話題の類似度のみを用いてフォロイー候補を決定する手法を用意した． (2)既存手法：フォロイー・フォロワー関係のみを用いた推薦手法

(7)

フォロイー・フォロワー関係のみを考慮した推薦手法として，フォロイー関係を考慮する手法，フォロワー関係を考慮する手法，相互フォロー関係を考慮する手法の3種類を用意した．各手法について以下で説明する． • フォロイー関係閲覧ユーザと共通のフォロイーが多いff-ユーザを推薦する． • フォロワー関係閲覧ユーザと共通のフォロワーが多いff-ユーザを推薦する． • 相互フォロー関係閲覧ユーザと共通の相互フォロー関係にあるユーザが多い ff-ユーザを推薦する． 4. 2. 3 結果と考察実験結果を表7に示すとともに，実験結果に対する考察をユーザタイプ毎に行い，表8にまとめる．表7より，ユーザタイプ1に分類されたUser1とUser2に対しては，提案手法の再現率とF値が他の手法と比較して高い値を示した．ユーザタイプ1では，フォロイーには現実世界での知人や友人が多く，そして自分の興味や趣味についてツイートしている場合が多い．知人や友人のフォロイーが多いという視点から見てみると，共通のフォロイーやフォロワーが多い人を推薦するフォロイー・フォロワー関係を用いた推薦手法がUser1とUser2に対しては有効であり，実際高い適合率を得ている．しかしながら，フォロイー・フォロワー関係を用いた推薦手法は話題の類似性を考慮しないため，共通の話題を有する潜在的なフォロイー候補が推薦されず，再現率が下がったものと考えられる．また，話題の類似性のみを考慮した手法と提案手法を比較してみると，提案手法の方が適合率も再現率も良かった．これは，提案手法が話題の類似性のみならず，話題に対する感情の類似性も考慮しているためと考えられる．以上のことから，話題と感情を考慮した提案手法がユーザタイプ1には最も有効であると言える．ユーザタイプ2に分類されたUser3とUser4に対しては，相互フォロー関係を用いた手法が適合率で，フォロイー関係を用いた手法が再現率とF値で最も高い値を示した．その理由として，ユーザタイプ2ではフォロイーは知人や友人であり，ツイートの内容も挨拶等の日常的なツイートが多いことから，共通の話題が抽出しにくく，話題に対する感情も算出にくいといった点が挙げられる．その結果，話題の類似性を考慮した従来手法や提案手法の適合率，再現率，F値がフォロイー・フォロワー関係を考慮した手法に比べ，極端に低くなっているのがわかる．ユーザタイプ3に分類されたUser5とUser6に対しては，両ユーザとも提案手法の再現率とF値が他の手法より高い値を示した．これは，ユーザタイプ1と同様，自分の興味や趣味についてツイートしている場合が多いためと考えられる．その一方で，ユーザタイプ1に比べユーザタイプ3では適合率が低くなっている．これは，フォロイーとして現実世界の知人や友人を選ばない傾向があるユーザタイプ3と，知人や友人であるフォロイーが共通の興味や趣味に関してツイートしているユーザタイプ1では，ユーザタイプ1の方がより適切なフォロイーを推薦しやすくなるためと考えられる．さらに，User5と User6を比較してみると，User6の適合率の方が低いことがわかる．その理由の一つとして，User6は話題の類似性以外の観点からフォローするユーザを決定する傾向があったためと考えられる．すなわち，ツイートの頻度が高いユーザはフォローしたくないとか，自分の興味に合った画像をツイートするユーザはフォローしたいとかいったものである．このような観点を今回の実験では考慮していなかったため，User6の適合率が低い値を示したものと考えられる．以上の結果から，話題と感情を考慮した提案手法の方がユーザタイプ3には有効であると言える．ユーザタイプ4に分類されたUser7とUser8は全ての手法において低い適合率，再現率，F値を示した．このことからユーザタイプ4に対しては，提案手法でも既存手法でも精度の良いフォロイー推薦ができないと言える．その理由として，日常的な内容のツイートが多く，話題を正確に抽出できない上，現実世界での知人や友人をフォローしないことから，共通のフォロイーやフォロワーを抽出できない点が挙げられる．以上の結果をまとめると，提案手法は，興味や趣味に関するツイートをしているユーザに対して有用であると言え，特にその中でも現実世界での知人や友人をフォローしているユーザに対して最も効果的であると言える．

5. まとめと今後の課題

本論文では，ユーザのTwitterの使い方をユーザタイプと呼び，そのユーザタイプ毎にフォロイー推薦の既存手法と提案手法の有効性を分析した．その結果，閲覧ユーザのツイートに趣味や興味の内容を多く投稿するユーザに関しては提案手法である話題とその話題に対する感情を考慮したフォロイーの推薦手法が有効である．しかし，閲覧ユーザがツイートに趣味や興味の内容を投稿していないユーザの場合はフォロイー・フォロワー関係を考慮したフォロイーの推薦手法が有効であった．今後の課題として，ユーザタイプはアンケートの結果から決定しているため，適切な推薦手法を自動で決定することができていない．そこで，ツイート数，フォロー数，フォロイー数，フォロイーの話題と感情などからユーザタイプを決定し，適切な推薦手法を自動で決定したい．謝辞本研究の一部はJSPS科研費26330347及び，私学助成金(大学間連携研究補助金)の助成によるものです．ここに記して謝意を表します．文献

[1] Twitter Reports First Quarter 2015 Results, https:// investor.twitterinc.com/releasedetail.cfm?ReleaseID= 909177.

[2] 北村太一，小川祐樹，諏訪博彦，太田敏澄，“コミュニケーショ

ンに着目した Twitter フォローユーザ推薦”，人工知能学会全国大会論文集 (CD-ROM)，Vol. 26，2012．

[3] Scott A. Golder, Sarita Yardi, Alice Marwick, and Danah Boyd, “A structural Approach to Contact Recommenda-tions in Online Social Networks”, Proceedings of Workshop

(8)

on Search in Social Media at ACM SIGIR Conference on Information Retrieval, 2009.

[4] M. Pennacchiotti and S. Gurumurthy, “Investigating Topic Models for Social Media User Recommendation”, Proceed-ings of the 20th International Conference Companion on World Wide Web, pp.101–102, 2011.

[5] D. F. Gurini, F. Gasparetti, A. Micarelli, and G. San-sonetti, “A Sentiment-Based Approach to Twitter User Rec-ommendation”, Proceedings of the 5th ACM RecSys Work-shop on Recommender Systems, 2013.

[6] 山本湧輝，熊本忠彦，灘本明代，“話題と感情の可視化に基づく

フォロイー推薦”，第 8 回 Web とデータベースに関するフォーラム論文集（WebDB 2015），pp.174–181，2015．

[7] Yuki Yamamoto, Tadahiko Kumamoto, and Akiyo Nadamoto, “Followee Recommendation Based on Topic Ex-traction and Sentiment Analysis from Tweets”, Interna-tional Conference on Information Integration and Web-based Applications & Services (iiWAS2015), pp. 107–115, 2015. [8] 中丸茂，“顔文字が文章の信頼度に及ぼす影響”，人工知能学会研究会資料（言語・音声理解と対話処理研究会），37，pp.173–176， 2003． [9] 加藤由樹，加藤尚吾，赤堀侃司，“携帯メールを使用したコミュニケーションにおける怒りの感情の喚起に関する調査”，教育情報研究: 日本教育情報学会学会誌，22 (2)，pp.35–43，2006． [10] 池川知里，新妻弘崇，太田学，“顔文字の役割を利用したツイートの感情極性推定”，第 6 回データ工学と情報マネジメントに関するフォーラム（DEIM 2014），No.E6-4，2014． [11] 村上浩司，山田薫，萩原正人，“顔文字情報と文の評価表現の関連性についての一考察”，第 17 回言語処理学会年次大会発表論文集，pp.1155–1158，2012． [12] 小林のぞみ，乾孝司，乾健太郎，“語釈文を利用した「p/n 辞書」の作成”, 人工知能学会研究会資料（言語・音声理解と対話処理研究会），pp.45–50, 2001.

[13] S. Fujimura, M. Toyoda, and M. Kitsuregawa, “A Reputa-tion Extracting Method Considering Structure of Sentence”, Institute of Electronics, Information and Communication Engineers, Data Engineering Workshop, 2005.

[14] 山本湧輝，熊本忠彦，灘本明代，“ツイートの感情の関係に基づ

く Twitter 感情軸の決定”，第 7 回データ工学と情報マネジメントに関するフォーラム（DEIM 2015），No.E5-2，2015．

[15] 中村明，感情表現辞典，東京堂出版，1993．

[16] C. Jilin, G. Werner, D. Casey, M. Michael and G. Ido, “Make New Friends, but Keep the Old: Recommending People on Social Networking Sites”, Proceedings of the SIGCHI Conference on Human Factors in Computing Sys-tems, pp.201–210, 2009.

[17] J. Hannon, K. McCarthy and B. Smyth, “Finding Use-ful Users on Twitter: Twittomender the Followee Recom-mender”, In Advances in Information Retrieval 33rd Euro-pean Conference on IR Research, pp.18–21, 2011.

[18] Marcelo G. Armentano, Daniela L. Godoy, and Analia A. Amandi, “A Topology-based Approach for Followees Rec-ommendation in Twitter”, In: The 9th Workshop on Intelli-gent Techniques for Web Personalization and Recommender Systems, ITWP, p.22, 2011. [19] 吉本和紀，鈴木優，吉川正俊，“マイクロブログにおける他者への影響を考慮した投稿者の重要度推定手法”，第 2 回データ工学と情報マネジメントに関するフォーラム（DEIM 2010）， No.C3-4，2010． [20] 久米雄介，打矢隆弘，内匠逸，“興味領域を考慮した Twitter ユーザ推薦手法の提案と評価”，情報処理学会研究報告（知能と複雑系），2015-ICS-179 (1)，pp.1–8，2015． [21] 桑原雄，稲垣陽一，草野奉章，中島伸介，張建偉，“マイクロブログを対象としたユーザ特性分析に基づく類似ユーザの発見および推薦方式”，情報処理学会研究報告（データベースシステム研究会），Vol.149, No. 18, pp. 2B-2, 2009. [22] 熊本忠彦，鈴木智也，“Twitter ユーザの印象選好を可視化するシステムの設計と評価”，電子情報通信学会論文誌，Vol.J98-D， No.5，pp.788–801，2015． [23] テキスト解析：キーフレーズ抽出 API．http://developer. yahoo.co.jp/webapi/jlp/keyphrase/v1/extract.html [24] R. Plutchik, “The nature of emotions”, American Scientist,

Vol. 89, pp. 344–355, 2001.

[25] T. Kumamoto, “Design of Impression Scales for Assessing Impressions of News Articles”, LNCS6193, Springer, In In-ternational Workshop on Social Networks and Social Media Mining on the Web (SNSMW’10), pp. 285–295, 2010. [26] K. Takaoka and A. Nadamoto, “Words-of-Wisdom Search

based on Multi-dimensional Sentiment Vector”, Interna-tional Journal of Business Intelligence and Data Mining (IJBIDM), pp.172–185, 2012. [27] 熊本忠彦，河合由起子，田中克己，“新聞記事を対象とするテキスト印象マイニング手法の設計と評価”，電子情報通信学会論文誌，Vol.J94-D, No.3, pp.540-548，2011． [28] 花井俊介，灘本明代，“酷似レシピ抽出のためのクラスタリング手法の提案”，第 6 回データ工学と情報マネジメントに関するフォーラム（DEIM2014），No.E5-2，2014．

[29] Y. Zhao and G. Karypis, “Comparison of Agglomerative and Partitional Document Clustering Algorithms”, Univer-sity of Minnesota, pp.2–14, 2002.

[30] M. Fujisawa, “Bayon - a simple and fast clustering tool - Google Project Hosting”, 2012, https://code.google. com/p/bayon/wiki/Tutorial/ [Online; accessed 11-August-2015].

話題と感情に基づくフォロイー推薦と評価

DEIM Forum 2016 B4-1