Twitterにおけるアーリーアダプター推定手法の評価

(1)

DEIM Forum 2016 G6-2

Twitter におけるアーリーアダプター推定手法の評価

今森大地

†

_{田島敬史}

†

京都大学大学院情報学研究科

〒 606–8501 京都府京都市左京区吉田本町

E-mail:

†

††

あらまし

Web では日々新しい話題が生まれ，その話題に関する情報を発信する情報源も新たに出現し続けている．

また，既知の話題に対してさえ新しい情報源が出現する．このような現状で，我々が情報を探すときに，新規情報源

を無視することはできない．しかし一方で，出現から時間が経過して評価が定まった情報源に比べて，新規情報源の

中から良いものを探すのは難しい．そこで我々は他者に先駆けて優良な情報源を発見する能力に優れたユーザ，すな

わちアーリーアダプターに注目し，新規情報源の優良さを推定する手法を提案する．我々は以前にフォローの模倣に

注目してアーリーアダプターを推定する手法を提案した．加えて，本研究ではフォロー順序に注目した新たな手法を

提案し，その二つの手法と各種ベースラインを用いて比較実験を行った．

キーワード

アーリーアダプター, ソーシャルネットワーク, マイクロブログ, リンク伝搬, 新規情報源, リンク予測,

リンク推薦, グラフ分析, 影響力

1. はじめに

SNSやマイクロブログなどのソーシャルメディアでは，一般の人々を含む非常に多くのユーザが情報源となって情報を発信することができるようになった．情報源の増加に伴い，そこで発信される情報の話題も豊富になり，その移り変わりも激しくなっている．加えて，近年では，TwitterやFacebookなどのソーシャルメディアにおいて，情報源となるユーザ数が日々増加している．例えば，Twitterでは，2015年10月平均で月間3億2000万人のユーザがいると発表されている（注1）_．特に Twitterなどのマイクロブログは，Facebookのような社会的繋がりと関係の深いソーシャルメディアと比べると，より変化の激しいメディアである．そして，このように多様な話題が移り変わり，日々新しい情報源が出現するマイクロブログにおいて，多くのユーザからフォローされる人気の情報源も次々と新しく登場する．日々新しく出現する将来人気がでるだろうアカウントを早期発見することは，バイラルマーケティングやトレンド抽出といった応用面で重要である．加えて，人気のある情報源というのは多くのユーザから支持されているということであり，人気のある情報源が発信する情報の質は高い傾向にある．つまり，情報源の人気度というのは，発信される情報の質を近似するのに有効な指標であると考えられる．Webページにおける情報源の質を推定する手法としてはPageRank [9]やHTIS [5]の成功が知られている．また，マイクロブログへの同様の試みとして，TwitterRank [12]がある．これらの手法は情報源への参照者がもつ性質とその数に注目し，そこから情報源の価値を推し量る手法である．しかし一方で，新規情報源は新しいがゆえに，発信する情報（注1）：http://files.shareholder.com/downloads/AMDA-2F526X/ 1430844265x0x856826/E036FA55-51C4-4F04-91C3-DDE9B94DAA08/ 2015 Q3 Earnings press release.pdf

の質に見合っただけの被参照数を得ることができておらず，その時点での参照者の数や参照者の性質によって情報源の将来獲得する人気度を推定することは難しい問題である．本研究では，Twitter上で新規情報源の将来の人気度を予測する手法を提案する．新規情報源の将来の人気度を推定するために，PageRank [9]やHITS [5]と同様にその時点でのフォロワーの数やフォロワーの性質を用いる．既存手法と違うのは，“そのフォロワーにフォローされているということは，その情報源のフォロワー数が今後増えることが期待される”というフォロワーの性質に注目する点である．このような性質をもつユーザを本研究ではアーリーアダプターと呼ぶ．別の言い方をすると，アーリーアダプターとは，将来人気となる情報源を早く発見する能力を持つユーザのことである．また，アーリーアダプターの性質を説明するための重要な概念としてフォローの模倣がある．フォローの模倣とは，あるユーザが他のユーザのフォローを参考にして，自身もおなじ情報源に対して参照を張る行為を意味する．我々は以前に，フォローを模倣されることが多いユーザはアーリーアダプターである，という仮定のもと，triadと呼ばれる“フォローによって形作られる三角形”によってフォローの模倣を発見することでアーリーアダプターを見つける手法[1] を提案した．その手法では，将来人気がでる情報源の早期発見において，順位相関値による評価ではベースラインよりも高い精度を示すことがわかっている．一方で，順位相関値の絶対値は提案手法を含めたすべての手法でたかだか中程度の相関を示すにとどまっている．加えて，nDCG [4]を評価尺度とした場合の実験では，ベースラインの方が高い精度を示した．そこで，本研究では，アーリーアダプターを発見するための別のアプローチを提案する．本アプローチでは，ある情報源のフォロワーの中で，その情報源を何番目にフォローしたのかというフォローの順序に注目し，その情報源をいち早くにフォローしているフォロワーに対して高いスコアを与える．また，

(2)

このスコアは対象の情報源のフォロワー数が多いほど高くなる．つまり，フォロワー数が多い情報源を早くにフォローしていたユーザのスコアが高くなるようにスコアを定義する．本研究ではこのスコアをアーリーアダプタースコアと呼び，アーリーアダプタースコアが高いユーザがアーリーアダプターとなる．このように，各ユーザのアーリーアダプタースコアを推定することでアーリーアダプターを発見することができるようになるが，一方で，どのような関数に基づいてスコア付けをするべきかは自明ではないという問題がある．そこで，スコア付けの関数を構成するために再びフォローの模倣の概念を用いる．4. 2節では，フォローの模倣に基づいて計算されたスコアが，アーリーアダプターの性質をうまく表現していることを示す．提案手法を用いて将来人気がでる情報源を早期発見することは，バイラルマーケティングやトレンド抽出といった応用面で有用であると考えられる．また，今後人気がでる新規ユーザはその後たくさんのフォロワーを持つ可能性があることから，リンク予測に用いることも可能である．提案手法を評価するために，実際のTwitter上のデータを用いて実験を行った．この実験に用いるTwitter のグラフデー

タは我々が新たに2015年に Twitter REST APIを用いて収

集したものである．このグラフデータには日本語を使用言語として設定している大部分のアカウントが含まれる．実験では，グラフデータが収集された時点での新しいユーザを抽出し，それらがクロール後数十日でどれだけ人気になったかを推定した．提案手法とベースラインによって将来の人気のランキングを作成し，そのランキングの精度をスピアマンの順位相関係数とnDCG [4]を用いて評価した．その結果，我々が以前に提案した手法は多くの場合でベースラインを上回る精度を示した．そして，今回提案する手法では，従来の手法が苦手としていた nDCGでベースラインを上回る精度を示した．一方で，提案手法は作成から四週間ほど経った新規情報源のその後の人気の推定を得意としていることもわかった．すなわち，提案手法では，作成から時間が経ってその新規情報源の将来の人気を推定するために必要な情報が蓄積されるのを待つ必要がある．以下，2章でまず関連研究について述べ，続いて3章でアーリーアダプタースコアから新規情報源の将来の人気度を推定方法を述べる．4章では，アーリーアダプタースコアを推定する手法について述べる．5章では実験に用いるデータとベースラインを紹介し，実験結果を示す．最後に6章では，まとめと今後の課題を述べる．

2.

3. フューチャーポピュラリティースコア

本節では，新規情報源の将来の人気を推定する方法を提案する．まずはじめに本研究で用いる記号の定義を行う．その後，アーリーアダプターとアーリーアダプタースコアについて説明を行う．次に，アーリーアダプタースコアから新規情報源の将来の人気を表す指標であるフューチャーポピュラリティースコアを計算する方法を述べる．本節の最後に，我々が以前に提案したtriadに基づいたアーリーアダプター推定の方法とその評価を示す． 3. 1 記号の定義 D(V, E)をTwitterユーザ間のフォローによる有向グラフとする．V はノードの集合であり，すべてのユーザを表す．Eは辺の集合であり，各辺_{hu, vi}はユーザuのユーザvへのフォローを表す．u∈ V に対して，F riends(u)はuのフレンド集合,すなわち情報源集合を表す．u∈ V に対して，F ollowers(u)はuのフォロワー集合．また，F ollowersnr(u)はuを一方的にフォロー

(3)

しており，uからはフォローされていないようなuの非相互フォ

ロワー集合を表し，同様にF riendsnr(u)はuに一方的にフォ

ローされており，uをフォローしていないようなuの非相互フレ

ンド集合を表す．F ollowOrders(u)は，uがsをF ollowers(s)

の中で何番目にフォローしたのかを表す．すなわち，1 <₌

F ollowOrders(u) <_{= |F olowers(s)|, F ollowOrder}s(u)∈ Nと

なる． 3. 2 アーリーアダプタースコア 本節ではアーリーアダプタースコアの説明を行うが，そのための準備として，まずはアーリーアダプターとフォローの模倣について言及する． 3. 2. 1 アーリーアダプターアーリーアダプターとは人気のある情報源すなわちフォロワー数の多い情報源をいち早くフォローしている能力のあるユーザである，と定義する．アーリーアダプターは既に人気のある情報源を他ユーザに先駆けてフォローしており，また，将来人気になる新規情報源をもフォローする．次にアーリーアダプターの性質を説明する重要な概念としてフォローの模倣がある． 3. 2. 2 フォローの模倣あるユーザは情報源をフォローする際に，他ユーザがフォローしている情報源を真似してフォローすることがある．このような活動をフォローの模倣と呼ぶ．本研究では，他者より人気情報源を早くフォローするという性質からアーリーアダプターは他者にフォローをよく模倣され，また，フォローをよく模倣されるユーザはアーリーアダプターであると仮定する．よって，今後フォローの模倣という概念がアーリーアダプターを推定する上で重要な要因となる．一方で，我々が以前に提案したtriad によってフォローの模倣を発見する手法と，今回新たに提案するフォロー順序に注目した手法では，フォローの模倣の定義が異なることに注意したい．前者の定義は4.章の定義2で，後者の定義は定義5で示している．アーリーアダプタースコアは，各ユーザがどの程度アーリーアダプターとしての性質を持っているかを判断するための指標として定義される．提案手法でアーリーアダプタースコアをどのように定義するかの詳細は4. 2節で述べる．また，先に述べたようにアーリーアダプターはその性質から，フォローの模倣と重要な関係にあるが，実際に我々の以前の研究[1]や，本研究ではフォローの模倣を用いてアーリーアダプタースコアを計算するような定義を用いている．今後，ユーザu∈ V のアーリーアダプタースコアをE(u)と記述する． 3. 3 フューチャーポピュラリティースコアとは 本節では，アーリーアダプタースコアを用いてフューチャーポピュラリティースコアを定義する． 定義1. ユーザu∈ V のフューチャーポピュラリティースコア Ft_(u)_{は以下のように定義される．} Ft(u) = X v∈F ollowers(u) E(v) (1) ユーザu ∈ V のフューチャーポピュラリティースコアは，u

u

w

v

u, v

v, w

u, w

図 1 triad のフォロワーv∈ F ollowers(u)のアーリーアダプタースコア E(v)を足し合わせることで定義される．この定義は，アーリーアダプタースコアの高いユーザに多く参照される情報源は，将来人気になる可能性が高いという仮定に基づいて行われている．アーリーアダプタースコアを適切に定義することで，このフューチャーポピュラリティースコアの定義は妥当なものとなる．以上の議論から，アーリーアダプタースコアを適切に定義することで，フューチャーポピュラリティースコアを計算できるようになった．そこで，本研究でのアーリーアダプタースコアの定義を示す前に，我々の以前の研究[1]においてどのようにアーリーアダプタースコアを定義し，どのような性能を示したかを述べる．

4. アーリーアダプタースコアの推定

本章では，以前に我々が提案したtriadと呼ばれるフォロー関係による三角形に注目したアーリーアダプタースコア推定手法の紹介に加えて，新たにフォロー順序に注目した手法を提案する．アーリーアダプタースコアを推定することが出来れば， 3章で述べたように，フューチャーポピュラリティースコアを計算することができる． 4. 1 Triad に基づいた手法 本節では，我々が以前に提案したtriadと呼ばれるフォロー関係による三角形に注目した手法[1]について説明する．triad とは，図1に示したような三角形である．この手法では，フォローの模倣を以下のように定義する．定義 2. あるユーザu, v∈ V において，uがvのフォローを模倣するというのは，vのフォローしている情報源すなわち F riends(v)を参考に，uもw∈ F riends(u)をフォローするという行為を意味する．また，あるユーザuを模倣するのはu のフォロワーF ollowers(u)のみであると仮定する．そして，triadが存在すると，上記のようなフォローの模倣が行われた可能性が存在する．そこで，グラフ上からtriadを数え上げることで，フォローの模倣が起こった回数を推定することができる．あるユーザのアーリーアダプタースコアを以下のように被模倣数を用いて定義する．定義3. v∈ V のアーリーアダプタースコアEt(v)は，以下に

(4)

よって定義される．

Et(v) = |Copy(v)|

|F ollowers(v)| × |F riends(v)| (2)

ここで，vを模倣することによって形成されたフォローの集

合をCopy(v)とする．すなわち，hu, wi ∈ Copy(v)におい

て，uはvのフォロー_{hv, wi}を模倣することで，_{hu, wi}を形

成したということを示している．また，Copy(v)の定義より，

Copy (v )⊂₌Friends(v )×Followers(v)となる．この式の分子は，

uが自身のフォローを他ユーザから模倣された回数であり，分母はvが自身のフォローを模倣される機会の回数を表している．ただし，分母が0になる場合は，Et_{(v) = 0}_とする．_Et_(v)_は vが自身のフォローを模倣された割合であると考えられる．以上の定義において，実際のソーシャルグラフ上からCopy(v) を直接得ることはできない．そこで我々はソーシャルグラフ上からtriadのような構造の特徴を発見し，フォローの模倣が行われた痕跡を見つけることで_|Copy(v)|を推定する方法を提案している[1]． 4. 2 フォロー順序に基づいた手法 本節では，フォロー順序に基づいたアーリーアダプタースコアを導入することでアーリーアダプターを推定する方法を提案する．3.節で述べたように，アーリーアダプターとは，人気情報源すなわちフォロワー数の多い情報源をいち早く見つける能力をもつユーザのことである．そこで，アーリーアダプターを発見するために，各ユーザの“フォロワー数の多い情報源をいち早く見つけた実績”を求め，それをアーリーアダプタースコアとすることを考える．すなわち，フォロワー数の多い情報源を早くにフォローしていたユーザに高いスコアが与えられるようにアーリーアダプタースコアを定義する．ある情報源sのフォロワー数をn =|F ollowers(s)|とし，sをi(1 <_{= i <}_{= n)}番目にフォローしたフォロワーをfisとする．f s i に与えられるスコアは，iを固定した場合はnが大きくなるに連れて大きくなり，nを固定した場合は，iが大きくなるに連れて小さくなるようにしたい．そこで，上記の性質を満たすようなアーリーアダプタースコアを以下のように定義する．定義 4. あるユーザv∈ V のアーリーアダプタースコアE(v) を以下のように定義する． E(v) = P

s∈F riends(v)a(|F ollowers(s)|, F ollowOrders(v))

|Friends(v)| (3) ただし，a(n, i)は以下の様な性質をもつ． • nの増加関数 • iの減少関数ここで，nが_{|F ollowers(s)|}，iがF ollowOrders(v)に対応する．上記の定義では，a(n, i)を具体的にどのような関数として定義するかは示しておらず，上記のような二つの性質をもつ a(n, i)は無数に考えられる．そこで，次節では，フォローの模倣という概念を取り入れることでa(n, i)が与えられることを示す． 4. 2. 1 フォローの模倣に基づくモデル本提案手法では，フォローの模倣を以下のように定義する． 定義5. 情報源sをフォローしているユーザu∈ F ollowers(s) は，F ollowers(s)のなかで，自身より早くsをフォローしているユーザのどれかを真似してsをフォローすると考え，このような活動をフォローの模倣と呼ぶ．ある情報源sのフォロワー集合F ollowers(s)にフォローの模倣に基づいたスコアを与えることを考える．アーリーアダプターはその性質から，フォローを模倣される可能性が高い．そこで，フォローを模倣された数をスコアとして足しあわせて，アーリーアダプタースコアとして用いる事を考える．F ollwoers(s) の中でi番目にsをフォローしたユーザをfs i とすると，fisは fs 1, f2s, ..., fi−1s のどれかを模倣してsをフォローしたと考える．そこで，fiがf1s, f2s, ..., fi−1s に均等にスコアを分配する．このようにスコアを配分すると，最終的に，各フォロワーが得るスコアの総和が被模倣回数の期待値となる．まずはじめに，各 fs k(1 <= k <= |F ollowers(s)|)がすべてに等しく1の価値を持っており，それを模倣した可能性があるユーザに均等に分配するという単純なモデルを考える． 定義6. フォロワー数nのある情報源sをi番目にフォローしたsのフォロワーfisのスコアa(n, i)を決定するための被模倣数期待値モデルを以下のように定義する． • 各フォロワーfs k(1 <= k <= |F ollowers(s)|)はすべて等しく1の価値を持つ． • fs i はf1s...fis−1を等しく模倣した可能性があり，各々に自身の持つ価値1を均等に分配する． • fs i が得るスコアas(fis)は，他のフォロワーから分配されたスコアの和である．被模倣数期待値モデルを数式で表現すると，以下のようになる． a(n, i) = n X j=i+1 1 j− 1 (4)

n =|F ollowers(s)|, i = F ollowOrders(u)である．jはfis

よりも後にsをフォローした各ユーザのフォロー順を表している． 1 j−1はfjsがfisに与えるスコアを表している．また，このように求められたスコアa(n, i)はnの増加関数であり，iの減少関数であることから，定義4で述べた性質を満たすことがわかる．次に，重み付き被模倣数期待値モデルを提案する． 定義7. フォロワー数nのある情報源sをi番目にフォローしたsのフォロワーfisのスコアa(n, i)を決定するための重み付き被模倣数期待値モデルを以下のように定義する． • 各フォロワーfs k(1 <= k <= |F ollowers(s)|)ははじめにスコアをもつ． • fs i はf1s...fis−1を等しく模倣した可能性があり，自身の持つスコアas(fsk)を価値として，各々に均等に分配する． • fs i が得るスコアas(fis)は，はじめから与えられているスコアと他から得るスコアの総和である．

(5)

被模倣数期待値モデルとの違いは二点ある．一つ目は，各フォロワーがはじめから同じスコアを持っているという点で，もう一つは，自身が他ユーザから得たスコアを価値として，自身が模倣した可能性のあるユーザに均等に分配する点である．ただし，自身が得たスコアを与えると言っても，自身のスコアが減るわけではないことに注意したい．重み付き被模倣数期待値モデルを数式で表現すると，以下のようになる． 8 > > > > < > > > > : a(n, i) = n X j=i+1 a(n, j) j− 1 +  (5) n X i=1 a(n, i) = n (6)

ここで，n =|F ollowers(s)|, i = F ollowOrders(u)である．

(6)において，総和をnとしているのは，各フォロワーに与えられるスコアを情報源sのフォロワー数nに応じて変化させるためである．すべてのフォロワーに等しく与えられるスコアであるが，これは，今後フォロワー数がnよりも増えた場合に，増えたフォロワーから分配されるだろうスコアを表していると考えられる．重み付き被模倣数期待値モデルによって得られるスコアa(n, i) が定義4で述べた性質を満たすことを示す．まず，(5)，(6)を解くと一般項を計算することができ， a(n, i) =1 i n Hn , for (1 <_{= i <}_{= n)} (7) となる．ここで，Hnは一般に調和数と呼ばれ，Pn_i=11_i のことを表す．このように求められた重み付き被模倣数期待値モデルによるスコアa(n, i)が定義4における性質を満たすことを示す．そのためには， n Hn がnの増加関数であることを示せば良い． n Hn <n + 1 Hn+1 ⇔ nHn+1< (n + 1)Hn ⇔ (n + 1)Hn− nHn+1> 0 (8) より，n/Hnの単調性を示すために (n + 1)Hn− nHn+1> 0 を示す．1 <_{= n}において， (n + 1)Hn− nHn+1 = (nHn+ Hn)− (nHn+ n· 1 n + 1) = Hn− n n + 1 = (1 1− 1 n + 1) + ( 1 2− 1 n + 1) +· · · + ( 1 n− 1 n + 1) > 0. (9) これより， n Hnは単調増加であり，そのことから(7)はnの単調増加関数であることがわかった．図 2 各点はターゲットとなる新規ユーザを表し，横軸はクロール開始から何日後にクロールされたのか，縦軸はそのユーザが作成されてから何日後にクロールされたかを表している．赤線は一日ごとの平均を示している．

5. 実

験

5. 1 実験結果 本研究の評価実験を行うためのデータセットとして，日本語を使用言語としているTwitter上のすべてのアカウントを含むような大規模なグラフデータを用いる．グラフの詳細は以下のようになっている． • フォロワー数・フレンド数ともに多いアカウント @Twit-terJPを基点にした幅優先探索でアカウントの言語設定が ja になっているものをたどり，到達可能なすべての言語設定がja のユーザを収集 • 収集したフォロー関係の内，言語設定がjaとなっていないアカウントを含むものを除去． • ユーザ数_{|V | = 42, 867, 281} • フォロー関係数_{|E| = 4, 253, 181, 701} • クロール期間は2016年11月3日から2016年12月 10日． 5. 2 実験の詳細 （1）クロール開始から一ヶ月前以降に作成されたすべての新規ユーザを実験のターゲットとし，これをT と記す．各々のターゲットはcreated-crawledとcrawled-atという二つのパラメータを持つ．created-crawledはそのターゲットユーザが作成されてから何日後にクロールされたかを表す．crawled-atはそのターゲットユーザがクロール開始から何日後にクロールされたかを表す．そしてTba は

created -crawled = aとcrawled -at = bをもつターゲット

集合を表す．例えば，T3014は作成から14日後，かつ，ク

ロール開始から30日後にクロールされた新規ユーザを表

(6)

がどのような関係にあるのかを示した．各点がターゲットを表し，横軸は各ユーザがクロール開始から何日後にクロールされたのか，縦軸は作成から何日後にクロールされたのかを表す．また，赤線は各日の平均を表す．T0-7は緑色，T14は青色，T0-714 は黄色の長方形内のターゲットに対応している．（2）このように抽出したターゲットから，情報源として使われているアカウントを特定するために，フレンド数/フォロワー数という比を使う．この比をff とする．Twitterの各アカウントは大きくわけて，情報を発信する情報源アカウントと知り合いとのコミュニケーションや情報収集に使われる非情報源アカウントの二つがある．前者はff が小さい傾向があるといえる．反対に，後者はそのフォロワーやフレンドに相互フォローが多い傾向にあり，ff が大きくなる．そこで，ターゲットユーザの中から情報源アカウントを選択するために，ff に上限をつける．（3）このように設定したターゲットについて提案手法とベースラインを用いて将来の人気度を推定した．（4）正しい将来の人気度とするために，各ターゲットの非相互フォロワー増加数を2016年12月13日から毎日収集した．（5）各種法で推定した将来の人気度によるランキングと，正解となる将来の非相互フォロワー増加数によるランキングを比較した．比較にはスピアマンの順位相関係数とnDCG を用いた．順位相関係数はランキングの全体の精度を評価する尺度であり，nDCGはランキング上位の精度に重きをおいて評価する尺度である．次に，実験に用いる提案手法，ベースラインの紹介をする． 5. 2. 1 提案手法 • 被模倣数期待値モデルに基づく提案手法,定義6の被模倣数期待値モデルに基づいてアーリーアダプタースコアを計算し，そこからフューチャーポピュラリティースコアを求める手法である．以下ではこの手法をF と記す． • 重み付き被模倣数期待値モデルに基づく手法,定義7の重み付き被模倣数期待値モデルに基づいてアーリーアダプタースコアを計算し，そこからフューチャーポピュラリティースコアを求める手法である．以下ではこの手法をFwと記す． • 被模倣数期待値モデルに基づく提案手法 + 非相互フォ ロー, F の計算を非相互フォローグラフ上で行ったもの．以下ではこの手法をF (f )と記す． • 重み付き被模倣数期待値モデルに基づく手法 + 非相互 フォロー, Fwの計算を非相互フォローグラフ上で行ったもの．以下ではこの手法をFw(f )と記す． • Triad に基づく手法,我々が以前に提案したtriadに基づく手法で将来の人気度を推定する．この手法にも多くのバリエーションが存在するが，ここで非相互フォローを考慮し，被模倣率にアーリーアダプターのフォロワー数を乗算することでリンク伝播としてアーリーアダプタースコアを考える手法を採用した．以下ではこの手法をFt_{(f )}_と記す． 5. 2. 2 ベースライン • フォロワー数,情報源の当時のフォロワー数を将来の人気度を表す指標とみなす手法．以下では，F W と記す． • 非相互フォロワー数,情報源の当時の非相互フォロワー数を将来の人気度を表す指標とみなす手法．以下では，F Wnr と記す． • フレンド数,情報源の当時のフレンド数を将来の人気度を表す指標とみなす手法．以下では，F Rと記す． • 非相互フレンド数,情報源の当時の非相互フレンド数を将来の人気度を表す指標とみなす手法．以下では，F Rnr と記す． • PageRank, PageRankアルゴリズム[9]によって計算された値を将来の人気度の指標とみなす手法．以下では，PR と記す． • 非相互PageRank,非相互フォローグラフ上で PageR-ankアルゴリズム[9]を用いて計算された情報源の将来の人気度の指標とみなす手法．以下では，PRnr と記す． • HITS，HITSアルゴリズム[11]を用いて計算されたオーソリティ度を情報源の将来の人気度の指標とみなす手法．以下ではHITSと記す． • 非相互HITS，非相互フォローグラフ上でHITSアルゴリズム[11]を用いて計算されたオーソリティ度を情報源の将来の人気度の指標とみなす手法．以下ではHITSnr と記す．本実験ではまず，Tn_{, n = 1, 7, 14, 28}_{に対して各手法で将来} の人気度を推定し，それを正解であるm日後の非相互フォロワー増加数によるランキングと比較し評価した．評価にはスピアマンの順位相関係数とnDCGを用いて評価を行った．表1は T14_{における将来の非相互フォロワー増加数と各種法との順位} 相関値を示している．5日から35日先の予測に関してはFt_{(f )} が他手法よりも高い相関値を示している．一方で，40日から 50日先の予測では，P RやF Wがより高い値を得ている．この原因は図2によってより推測できる．図2においてT14は青枠の長方形内のターゲット集合を表しているが，これらのターゲットはcrawled-atが小さい集合と大きい集合の二つに分割されていることがわかる．そして，5日から30日先を予測する場合には対象はcrawled-atが大きなターゲットだけだが，35日から50日先の予測する場合にはcrawled-atが小さなターゲットそこに含まれる．このcrawled-atが小さなターゲット集合が先程述べた変化の影響であると考えられる．次に，crawled-at の大小，すなわちクロールされたタイミングが早いか遅いかによってターゲットとなるユーザにどのような性質の差があるかを考える．我々は早い段階にクロールされたターゲットは情報発信型のユーザではなく，コミュニケーションを目的とした非情報源アカウントであるものが多いと仮定する．この仮定は図 3によって支持される．この図は横軸がクロール開始から何日後にクロールされたのかを表し，縦軸はフレンド数/フォロワー数の比ff を表している．この仮定にもとづいて，我々はフレンド数/フォロワー数の比によってターゲット集合を絞り込む．本研究ではこの比をff と表記する．ff が大きいユーザは非情報

(7)

図 3 各点はターゲットとなる新規ユーザを表し，横軸はクロール開始から何日後にクロールされたのか，縦軸はそのユーザのフレンド数/フォロワー数の比を表している．赤線は一日ごとの平均を示している． 表 1 T14_{における将来の非相互フォロワー増加数と各手法との順位} 相関値

Target Data Set T14

days ahead 5 10 15 20 25 30 35 40 45 50 data size 11663 11663 11663 11663 11663 12945 15264 20815 20815 20815 FW 0.42 0.44 0.43 0.44 0.41 0.39 0.35 0.27 0.26 0.25 FWnr 0.44 0.44 0.42 0.42 0.37 0.34 0.24 0.09 0.08 0.07 FR 0.24 0.27 0.28 0.29 0.27 0.25 0.20 0.09 0.09 0.09 FRnr 0.20 0.23 0.23 0.24 0.21 0.16 0.08 -0.03 -0.04 -0.04 PR 0.25 0.28 0.29 0.29 0.28 0.29 0.30 0.30 0.30 0.29 PRnr 0.27 0.29 0.28 0.29 0.26 0.22 0.14 0.07 0.06 0.05 HITS 0.42 0.44 0.43 0.43 0.40 0.33 0.19 0.05 0.05 0.05 HITSnr 0.41 0.41 0.39 0.39 0.33 0.25 0.07 -0.07 -0.07 -0.07 F - 0.43 0.45 0.44 0.44 0.41 0.39 0.34 0.25 0.24 0.24 f 0.45 0.45 0.42 0.42 0.36 0.34 0.23 0.06 0.05 0.04 Fw o 0.43 0.45 0.44 0.44 0.41 0.39 0.34 0.24 0.24 0.23 f,o 0.45 0.45 0.43 0.43 0.37 0.34 0.24 0.07 0.06 0.05 Ft _- _0.41 _0.43 _0.42 _0.43 _0.4 _0.38 _0.33 _0.27 _0.27 _0.26 f 0.46 0.48 0.48 0.48 0.44 0.41 0.34 0.26 0.25 0.24 源アカウントであり，ff が小さいユーザは情報源アカウントであるとする．本実験に際して，我々はff < 1.0という基準で，情報源アカウントかどうかを判定する． Tn (ff < 1.0)に対して各手法で将来の人気度を推定し，それを正解であるn日後の非相互フォロワー増加数によるランキングと比較し評価した．評価にはスピアマンの順位相関係数とnDCG を用いて評価を行った．表2，3は，それぞれ T14 _{(ff < 1.0)}_，_T28 _{(ff < 1.0)}_{に対する順位相関の結果を示} している．この表から，作成から二週間の時点での推定では， Ft(f )が他の手法に比べて高い精度を示していることがわかる．一方，作成から四週間たったターゲットに対する推定では，Fw(-)またはFw(f )が他の手法を上回る結果となっている．表4，5は，それぞれT7 _{(ff < 1.0)}_，_T28_{(ff < 1.0)}_に対する nDCG@kの結果を表している．表4を見ると，F , Fw, Ftがほとんどの場合でベースラインを上回る数値を出している一方， 表 2 T14_{(ff < 1.0) における将来の非相互フォロワー増加数と各手} 法との順位相関値

Target Data Set T14_{(ﬀ < 1.0)}

days ahead 5 10 15 20 25 30 35 40 45 50 data size 8076 8076 8076 8076 8076 8218 8644 9112 9112 9112 FW 0.34 0.36 0.36 0.36 0.36 0.36 0.33 0.28 0.28 0.26 FWnr 0.38 0.38 0.37 0.37 0.35 0.33 0.26 0.19 0.18 0.16 FR 0.20 0.23 0.24 0.24 0.26 0.26 0.24 0.20 0.21 0.20 FRnr 0.31 0.31 0.30 0.30 0.29 0.27 0.19 0.13 0.12 0.10 PR 0.19 0.21 0.22 0.22 0.24 0.25 0.26 0.26 0.26 0.26 PRnr 0.36 0.37 0.36 0.36 0.35 0.34 0.30 0.24 0.23 0.21 HITS 0.35 0.36 0.36 0.36 0.36 0.34 0.24 0.17 0.17 0.16 HITSnr 0.36 0.36 0.34 0.34 0.32 0.27 0.13 0.05 0.04 0.03 F - 0.36 0.38 0.37 0.37 0.37 0.37 0.33 0.28 0.28 0.27 f 0.39 0.39 0.37 0.37 0.35 0.34 0.26 0.19 0.17 0.15 Fw - 0.36 0.37 0.37 0.37 0.37 0.36 0.33 0.28 0.28 0.27 f 0.39 0.39 0.37 0.38 0.36 0.34 0.27 0.20 0.18 0.16 Ft - 0.33 0.35 0.36 0.36 0.36 0.36 0.33 0.28 0.28 0.27 f 0.40 0.42 0.42 0.42 0.41 0.41 0.36 0.30 0.30 0.28 表 3 T28_{(ﬀ < 1.0) における将来の非相互フォロワー増加数と各手} 法との順位相関値

Target Data Set T28(ﬀ < 1.0)

days ahead 5 10 15 20 25 30 35 40 45 50 data size 5408 7856 9158 9293 9503 9785 10271 10964 10964 10964 FW 0.14 0.23 0.30 0.31 0.28 0.29 0.27 0.26 0.26 0.25 FWnr 0.22 0.28 0.33 0.32 0.31 0.30 0.25 0.23 0.22 0.21 FR -0.02 0.07 0.16 0.17 0.16 0.17 0.16 0.17 0.16 0.16 FRnr 0.14 0.20 0.25 0.24 0.24 0.22 0.18 0.16 0.15 0.14 PR 0.00 0.10 0.18 0.20 0.19 0.21 0.21 0.22 0.23 0.22 PRnr 0.21 0.26 0.31 0.31 0.31 0.30 0.26 0.25 0.24 0.23 HITS 0.17 0.20 0.26 0.25 0.21 0.20 0.16 0.16 0.15 0.15 HITSnr 0.19 0.24 0.27 0.26 0.24 0.21 0.15 0.14 0.13 0.12 F - 0.18 0.26 0.32 0.33 0.30 0.30 0.28 0.27 0.27 0.26 f 0.24 0.30 0.34 0.33 0.32 0.31 0.26 0.24 0.23 0.21 Fw - 0.18 0.26 0.33 0.33 0.30 0.31 0.29 0.28 0.27 0.26 f 0.24 0.30 0.34 0.34 0.32 0.31 0.26 0.24 0.23 0.22 Ft - 0.04 0.12 0.19 0.21 0.21 0.23 0.23 0.23 0.24 0.23 f 0.13 0.20 0.27 0.27 0.26 0.27 0.25 0.24 0.24 0.24 三つの手法のうち，どれか一つが常に高い値を取るというわけではない．表5を見ると，F (f )がすべての場合で他の手法を上回っていることがわかる．これらの結果を合わせて考えると，提案手法Fは作成から四週間程度の時間がたったターゲットに対して他手法よりも高い精度で将来の人気を予測できて言える．一方で，FtはF に比べて早い段階で他手法を上回っている．しかし，ランキングの上位が正解していることを高く評価する nDCGに関しては，提案手法はT7の時点でもFtにも劣らない精度を出しており，加えてT28_{においては，}_T7_{の時よりも} 高い精度で推定できている．作成されてから一週間や二週間といった早い段階での予測において，提案手法の精度が他手法ほど高くない理由として，提案手法がFtやPageRank, HITSのようにグラフ全体の情報をうまく扱えておらず，局所的な情報によって各ターゲットの将来の人気を予測しようとしていることがあげられる．このことは，計算量の点から考えると利点でもあるが，一方で，提案手法の改善の余地を示唆しているとも言える．

6. まとめと今後の課題

本研究では，フォロー順序に基づいてアーリーアダプターを発見し，アーリーアダプターは人気情報源をいち早く見つける能力に優れているという仮定のもと，フューチャーポピュラリ

(8)

表 4 T7_{(ﬀ < 1.0) における，30 日後の非相互フォロワー増加数を} ゲインとした nDCG@k

Target Data Set T7 _{(ﬀ < 1.0)} @50 @100 @150 @200 @250 data size 8252 8252 8252 8252 8252 FW 0.18 0.20 0.21 0.21 0.21 FWnr 0.18 0.21 0.21 0.21 0.22 FR 0.02 0.03 0.15 0.15 0.15 FRnr 0.08 0.08 0.08 0.08 0.17 PR 0.04 0.04 0.05 0.05 0.05 PRnr 0.03 0.04 0.13 0.13 0.14 HITS 0.03 0.03 0.04 0.05 0.13 HITSnr 0.04 0.05 0.15 0.15 0.18 F - 0.18 0.18 0.21 0.21 0.22 f 0.18 0.21 0.22 0.22 0.22 Fw - 0.18 0.18 0.21 0.21 0.21 f 0.18 0.21 0.22 0.23 0.23 Ft _- _0.19 _0.19 _0.19 _0.23 _0.23 f 0.19 0.20 0.23 0.23 0.24 表 5 T28_{(ﬀ < 1.0) における，30 日後の非相互フォロワー増加数を} ゲインとした nDCG@k

Target Data Set T28_{(ﬀ < 1.0)} @50 @100 @150 @200 @250 data size 9785 9785 9785 9785 9785 FW 0.15 0.19 0.20 0.20 0.22 FWnr 0.22 0.26 0.28 0.30 0.32 FR 0.04 0.05 0.07 0.08 0.08 FRnr 0.10 0.14 0.15 0.15 0.17 PR 0.14 0.16 0.18 0.19 0.19 PRnr 0.17 0.18 0.18 0.19 0.19 HITS 0.06 0.06 0.07 0.14 0.15 HITSnr 0.08 0.08 0.09 0.10 0.11 F - 0.12 0.17 0.18 0.18 0.20 f 0.22 0.29 0.30 0.31 0.32 Fw - 0.12 0.15 0.17 0.19 0.20 f 0.20 0.28 0.28 0.29 0.29 Ft _- _0.11 _0.12 _0.14 _0.14 _0.16 f 0.18 0.20 0.21 0.22 0.22 ティースコアを計算する手法を提案した．アーリーアダプタースコアは，人気情報源すなわちフォロワー数の多い情報源を他ユーザよりも早くにフォローしていたユーザに多く与えられるが，どのような関数にしたがってスコアをつけるべきかというのは自明ではない．そこで，アーリーアダプターの性質と関連の深い，フォローの模倣という概念を導入し，フォローの模倣に基づくモデルを構築することで，どのような関数に基づいてスコアをつければよいかという問題に根拠を与えた．提案手法の評価を行うために，実際のTwitter上のデータを用いて実験を行った．実験の結果，我々が以前に提案したtriadに基づいた手法は多くのケースでベースラインを上回る結果となった．そして，提案手法では，以前に提案した手法が苦手としていた nDCGによる評価でいい精度を示した．一方で，提案手法は，作成から四週間ほど経過した新規情報源による推定を得意としていることがわかった．言い換えると，新規情報源が作成から 4週間ほどたち，将来の人気度を推定するために必要な情報が十分蓄積されるのを待つ必要があるということである．提案手法は以前に提案した手法に比べてシンプルな手法であり，このことが対象となる新規情報源の情報を十分扱えていないことにつながっているといえる．一方で，シンプルであるのは利点でもあり，提案手法は以前に提案した手法やその他のベースラインに比べて計算量が小さい．このことを踏まえ，提案手法にはより早い段階で新規情報源の将来の人気度を推定できるようにするための改善の余地が存在している.

謝

辞

本研究はJSPS科研費26280112, 26540163の助成を受けたものです。また，本研究の一部は京都大学学術情報メディアセンターのスーパーコンピュータを利用して実施しました．ここに記して，謝辞を示します．文献

[1] I. Daichi and T. Keishi. Twitter におけるフォローに関する 影響力に基づくハブ度の推定. In DEIM, 2014.

[2] J. Hopcroft, T. Lou, and J. Tang. Who will follow you back?: reciprocal relationship prediction. In CIKM, pages 1137–1146. ACM, 2011.

[3] H. Hu and X. Wang. How people make friends in social networking sitesa microscopic perspective. Physica A: Sta-tistical Mechanics and its Applications, 391(4):1877–1886, 2012.

[4] K. Järvelin and J. Kekäläinen. Cumulated gain-based eval-uation of ir techniques. ACM Transactions on Information Systems (TOIS), 20(4):422–446, 2002.

[5] J. M. Kleinberg. Authoritative sources in a hyperlinked en-vironment. Journal of the ACM (JACM), 46(5):604–632, 1999.

[6] H. Kwak, C. Lee, H. Park, and S. Moon. What is twitter, a social network or a news media? In WWW, pages 591–600. ACM, 2010.

[7] D. Liben-Nowell and J. Kleinberg. The link-prediction prob-lem for social networks. Journal of the American society for information science and technology, 58(7):1019–1031, 2007. [8] V.-A. Nguyen, E.-P. Lim, H.-H. Tan, J. Jiang, and A. Sun. Do you trust to get trust? a study of trust reciprocity behav-iors and reciprocal trust prediction. In SDM, pages 72–83, 2010.

[9] L. Page, S. Brin, R. Motwani, and T. Winograd. The pager-ank citation rpager-anking: Bringing order to the web. 1999. [10] A. Rapoport. Spread of information through a population

with socio-structural bias: I. assumption of transitivity. The bulletin of mathematical biophysics, 15(4):523–533, 1953. [11] D. M. Romero and J. M. Kleinberg. The directed closure

process in hybrid social-information networks, with an anal-ysis of link formation on twitter. In ICWSM, 2010. [12] J. Weng, E.-P. Lim, J. Jiang, and Q. He. Twitterrank:

find-ing topic-sensitive influential twitterers. In WSDM, pages 261–270. ACM, 2010.

[13] J. Zhang, C. Wang, P. S. Yu, and J. Wang. Learning latent friendship propagation networks with interest awareness for link prediction. In SIGIR, pages 63–72. ACM, 2013.

Twitterにおけるアーリーアダプター推定手法の評価

DEIM Forum 2016 G6-2