DEIM Forum 2016 A5-4
コミュニケーション活動から見た Twitter ユーザ間の関係性遷移
山本
修平
†神門
典子
††佐藤
哲司
††††
筑波大学 大学院図書館情報メディア研究科
〒 305–8550 茨城県つくば市春日 1-2
††
国立情報学研究所 情報社会相関研究系
〒 101–8430 東京都千代田区一ツ橋 2-1-2
†††
筑波大学 図書館情報メディア系
〒 305–8550 茨城県つくば市春日 1-2
E-mail:
†{
yamahei,satoh
}
@ce.slis.tsukuba.ac.jp,
††
[email protected]
あらまし Twitter では,リプライやリツイート等のコミュニケーション活動で,数多くのユーザが多様な関係性を築
いている.本論文では,ユーザ間のリプライ数とリツイート数に基づく,ユーザペアのコミュニケーション活動の遷
移を明らかにするための分析をする.コミュニケーション活動で関係を持つユーザペアについて,頻出する関係性や
連続時間で遷移しやすい関係性,また維持しやすい関係性などを明らかにできれば,ユーザの属性や利用形態の分析
のための有効な特徴量の 1 つになることが期待できる.単位時間毎のコミュニケーション活動をリプライとリツイー
トの相互性と,その活動量で特徴付け,ユーザ間の関係性を 27 種類のパターンに分類する.パターンの遷移確率から
頻出しやすい遷移や,自己遷移などを明らかにするためパターン間の遷移図を描き,それぞれのパターンが対応する
関係性について考察をする.長期的にコミュニケーション活動をしたユーザペアを分析した結果,ユーザ間の特徴的
な関係性を明らかにできたので報告する.
キーワード Twitter, リプライ, リツイート, コミュニケーション活動,関係性
1.
は じ め に
代表的なマイクロブログであるTwitter(注 1) では,ユーザは ツイートと呼ばれる最大140文字の短い記事を投稿し,他の ユーザとツイートを共有している.投稿に関わる機能として, 他のユーザに対する返信(リプライ)や,投稿を引用するリツ イートなどが存在する.ユーザはそれらの機能を利用しながら, 情報発信や他のユーザとコミュニケーションを図っている. Twitterのコミュニケーションには,多様な形が存在する. 例えば,友人間で交互にリプライし会話をするケースや,有名 人に対しそのファンが一方的にリプライをして応援するケース, いち早く最新のニュースを発信するアカウントのツイートを, あるユーザが頻繁にリツイートするケースなどがあげられる. このようなユーザペアの関係性はいくつかのパターンに分類で きると考えられ,また,時間の経過と共にその関係性も遷移し ていくことが予想される.ユーザ間のコミュニケーション活動 の遷移パターンとユーザ間の関係を明らかにすることで,ユー ザの属性や利用形態の分析のための有効な特徴量の一つになる と期待される. 著者らは,これまでに個々のユーザの単位時間あたりのツ イート数,リプライ数,リツイート数などの投稿活動における 特徴量に基づき,ユーザの投稿活動の遷移を分析してきた[14]. そこでは,単位時間あたりのユーザの投稿活動をクラスタリン グし,ユーザのクラスタ間の遷移を確率として算出し遷移図 を描くことにより,投稿活動が消極的になっていくユーザに見 られる特徴を明らかにしている.本論文でも,ユーザペアのコ ミュニケーション活動のパターンの遷移図を描くことにより, (注 1):http://twitte.com/ 頻出する遷移を明らかにしていく. 本論文では,ユーザ間のリプライとリツイートを基本となる コミュニケーション活動と定義し,リプライとリツイートの相 互性を特徴量に用いた,ユーザ間のコミュニケーション活動の 遷移を分析する手法を提案する.ユーザペアのエッジについて, 一週間毎にリプライ数とリツイート数を計測し,リプライ,リ ツイートの相互性と,それらの総数によってコミュニケーショ ン活動を数十種類のパターンに分類する.一週間毎のパターン の遷移確率を計算することにより,ユーザのコミュニケーショ ン活動において頻出する遷移を明らかにする. 本論文の構成を以下に示す.第2章では関連研究について述 べる.第3章でリプライとリツイートの相互性に基づく,コ ミュニケーション活動の分析手法について述べる.第4章で実 際のデータを用いた分析をし,定義したコミュニケーション活 動のパターンの遷移確率から状態遷移図を作成し,第5章で詳 細な考察をする.第6章で結論と今後の課題を述べる.2.
関 連 研 究
本研究はTwitterユーザのリプライとリツイートのネット ワークに着目し,ユーザ間のコミュニケーション活動における 関係性遷移を追っていることから,Twitterのネットワークに 着目した研究,リプライとリツイートの機能に着目した研究, またTwitter以外のWebコミュニティにおけるユーザの投稿 活動に関する研究を本節でまとめる. Twitterにおけるユーザネットワークに着目した研究は数多 く行われている.MyersとLeskovec [9]は,タイムスタンプ付 きのフォローネットワークを用いて,ユーザのフォロワーが大 きく増えるタイミングは,そのユーザのツイートが多くリツ イートされた直後に起きることを明らかにし,ユーザの新たなフォローを推定するモデルを提案している.Wangら[13]は, ツイートを効果的に拡散するため,ユーザのツイートから興味 を推定するだけでなく,各ユーザのツイート拡散能力を考慮し, ツイートの最適なリプライ先ユーザを推薦する手法を提案し ている.Yamaguchiら[15]は,ユーザが作成したリストに含 めたユーザを,そのユーザへのタグとみなし,Twitter全体で は相互にタグ付けしているケースは少ないが,友人関係では相 互にタグ付けしているケースが多いことを明らかにしている. Chaら[1]は,Twitterユーザの影響力をフォロワー数,リツ イートされた回数,リプライされた回数の3つの尺度で評価し, それぞれの評価尺度で抽出されるユーザの特徴について明らか にしている.YangとCounts [16]は,情報拡散構造の観点から Twitterとブログとを比較している.ユーザの最少の投稿間隔 をTwitterとブログとで比較した結果,1ヶ月の記事の投稿回 数が30回以下のユーザは,ブログよりもTwitterの投稿間隔 が小さいが,投稿回数が多いユーザほど両者の差は消失してい くと報告している. Twitterのリプライとリツイートに着目した研究も盛んであ る.Chalmersら[2]はリプライと,非リプライツイートのそ れぞれについて,投稿間隔と投稿頻度に着目した分析をして いる.分析の結果,リプライと非リプライツイートでは投稿 間隔が異なることを明らかにしている.Kwakら[8]は,リツ イートによるツイートの繋がりをツリー構造とみなすリツイー トツリーを構築し,ツリーのシードとなるツイートからの距 離とユーザの関係を分析している.島田ら[19]は,非公式な 書式を含むリプライ及びリツイートを用いてKwakらのリツ イートツリーを拡張し,ユーザ間での情報拡散を有向グラフ として分析している.分析対象としたユーザ全体の約8割が リプライやリツイートをしたことがあり,Twitterを利用する 上で他のユーザとの「つながり」を重視するユーザが多いと結 論づけている.Ghoshら[6]は,ツイートがリツイートされる 時間間隔と,ユーザがリツイートする時間間隔の確率分布か らエントロピーを算出し,リツイートを分析している.分析 の結果,リツイートはautomatic/robotic activity, newswor-thy information dissemination,advertising and promotion,
campaigns,parasitic advertisementsの5つのカテゴリに分 類できると報告している.
WebコミュニティやSNSのユーザライフサイクルに関する研 究もいくつか知られている.Danescu-Niculescu-Mizilら[4]は,
Webコミュニティのユーザが使用する言語の変化を2-gram言 語モデルを用いて分析している.ユーザのライフサイクルは,コ ミュニティの言語に適応するlinguistically innovative learning phaseと,言語の変化を受け入れないconservative phaseの2
段階からなると報告している.Drorら[5]は,質問回答サイト においてサービスの利用を停止するユーザを推定している.利 用を停止するユーザとそうでないユーザの特徴として,ユーザ が質問に対して回答を得られた回数とユーザの回答がベストア ンサーに選ばれた回数を挙げている.Kawaleら[7]は,オンラ インロールプレイングゲームを対象にユーザ間の社会的影響と ゲームへの参加度合いに基づき,利用を停止するユーザを予測 するモデルを提案している.Chengら[3]は,オンラインの議論 コミュニティにおける「荒らし」などの反社会的行動を特徴付 けている.分析の結果,反社会的な行動の1つとして過度に厳 しいコメントを投稿するケースを検出しており,そのような行 動をするユーザの推定にも取り組んでいる.Toriumiら[12]は, プライベートチャットシステムにおけるユーザのコミュニケー ション行動に着目し,援助交際等を持ちかけるSexual Predator の行動を分析している.コミュニケーション中の返事の時間間 隔や,投稿の文字数などを特徴にクラスタリングした結果,活 動的な特徴量のクラスタに属するユーザは,Sexual Predator からコミュニケーションされやすいことを明らかにしている. Tangら[11]は,ソーシャルネットワークを対象に,ユーザに とって繋がりたくない他ユーザ(Negative Link)を予測する手 法を提案している.各ユーザの入次数,出次数,クラスタ係数 のネットワーク特徴量,各ユーザのポジティブ,ネガティブな 記事の投稿数などの内容指向の特徴量,各ユーザペア間のポジ ティブ,ネガティブなインタラクション数に基づく特徴量を用 いて,Negative Linkを比較手法に比べ高い精度で推定してい る.NvaroliとSmythは[10],Eメールやソーシャルメディア における返信時間を予測することを目的に,各ユーザの曜日ご と,時刻ごとの活動パターンをモデル化し,各ユーザが高確率 に返事をする時刻を「effective response time」として推定し ている.田中ら[18]は,Twitterユーザの単位時間毎のツイー ト数に基づいてユーザをクラスタリングした後,ツイート内容 や生活習慣,登校時間帯を特徴に職業の推定をしている.これ 以外にも田中ら[17]は,ツイート内容とツイート数の時間的な 変化から,ユーザの生活における特徴的な行動パターンを検出 する研究にも取り組んでいる. 本研究は,まず2ユーザの関係性について単位時間ごとに評 価し,いくつかのパターンにユーザペアを分類する.連続時間 で遷移したパターン遷移確率を求め,ユーザペアの関係性がど のように遷移していくかを分析するところに特徴がある.
3.
コミュニケーション活動の分析手法
3. 1 ユーザペアの関係性を測る特徴量 本節では,ユーザ間のリプライ回数に基づく関係性を測る特 徴量を算出する.Twitterではリプライは会話,リツイートは 引用を目的にユーザから利用されている.一般的に,2ユーザの コミュニケーションは図1のように,相互にメッセージを送受 信しながら進められる.Twitterにおけるリプライも,このよ うに相互性のあるリプライの送受信が一般的であると考えられ る.ユーザuからユーザvへのリプライ回数をrpu,vとすると, 図1の例のような一般的なリプライ関係では,rpu,v≃ rpv,uと なる. 一方,ユーザvが著名人でユーザuがそのファンである関 係性の場合は,図2のように,ユーザuからvに一方的にリ プライを送り続ける関係になると考えられる.この場合は, rpu,v≫ rpv,uとなる. このような2ユーザの関係性を定量的に測るため,ユーザu とvのリプライ,リツイートの相互度をmrpu,v,mrtu,vを以図 1 相互的なリプライ関係 図 2 一方的なリプライ関係 下の式で定義する. mrpu,v = 0 (rpu,v+ rpv,u) = 0, rpu,v /
rpv,u rpu,v< rpv,u,
rpv,u / rpu,v otherwise, (1) mrtu,v = 0 (rtu,v+ rtv,u) = 0, rtu,v /
rtv,u rtu,v< rtv,u,
rtv,u / rtu,v otherwise, (2) rtu,vとrtv,uは,それぞれユーザuがvのツイートをリツイー トした回数,ユーザvがuのツイートをリツイートした回数で ある.mrpu,v,mrtu,vは共に,0 <= x <= 1を満たす.ユーザu とvが,図1のような相互的なコミュニケーションをしている とき,mrp(u, v)は1.0に近い値となる.図2のような一方的 なコミュニケーションをしているとき,mrp(u, v)は0.0に近 い値となる. mrpu,vとmrtu,vは,ユーザペアのコミュニケーション活動 の相互性を定量的に測れる一方で,そのユーザペアのコミュニ ケーション活動の量を考慮できていない.そこで,ユーザペア のリプライ数とリツイート数の合計値を,ユーザuとvのコ ミュニケーション活動量comu,vとして以下の式で定義する.
comu,v= log(rpu,v+ rpv,u+ rtu,v+ rtv,u+ 1) (3) 以上3種類の特徴量を単位時間毎に計測する.時刻tにおけ るユーザuとvのコミュニケーション活動に基づく特徴量は,
fu,vt = (mrptu,v, mrttu,v, comtu,v)と定義する. 3. 2 ユーザペアのパターンへの分類 前節で算出した特徴量に基づき,ユーザペアをいくつかのパ ターンに分類する.まず,各特徴量を次の式で{0, 1, 2}の3段 階の離散値に変換する. mtu,v = 0 mrpt u,v= 0.0, 1 0 < mrptu,v< 0.5, 2 0.5 <= mrptu,v, (4) rtu,v = 0 mrtt u,v= 0.0, 1 0 < mrttu,v< 0.5, 2 0.5 <= mrttu,v, (5) etu,v = 0 comt u,v< 2, 1 2 <= comt u,v< 4, 2 4 <= comtu,v, (6) これらの閾値は,全て経験的に設定した.(注 2) mtu,v= 0は片 方のユーザからのみリプライが確認された場合,mtu,v= 1は一 方的なリプライ関係である場合,mtu,v= 2はおよそ相互的な リプライ関係である場合を示す.リプライの離散的特徴量rt u,v についても同様である.例えば,(mt
u,v, rtu,v, etu,v) = (0, 0, 2) のユーザペアは,相互的なリプライやリツイートはしていない が,単位時間に非常に多くのコミュニケーション活動をしてい るとみなせる.離散化により得られる特徴量の出現パターンは, 27(= 33)通りである. 3. 3 パターン間の遷移確率の算出 前節で得られた単位時間あたりのユーザのコミュニケーショ ン活動パターンを用いて,あるパターンから遷移しやすいパ ターンを検出するため,パターン間の遷移確率を算出する.パ ターンiからjへ遷移した回数をni,jとしたとき,iがjへ遷 移する確率pi,jは以下の式から算出される. pi,j= ni,j ∑K k=1ni,k , (7) Kは総パターン数で,本論文ではK = 27である. 全てのパターンの組み合わせに対して遷移確率を算出し,遷 移図を作成することでコミュニケーション活動の変化を分析 する.
4.
評 価 実 験
4. 1 データセット 本節では,評価実験に使用するデータセットの概要を説明す る.実験データは,Twitter Search API(注 3)を使用し,2012年 4月1日から2013年6月4日までの430日間に日本語で投稿 されたツイートを収集した.コミュニケーション活動を計測す るための単位時間は1週間とし,全計測区間は64週である. ここからリプライとリツイートを抽出し,ユーザペア毎にその 頻度を計測した. 各ユーザペアについて,1度でもコミュニケーション活動を した週の分布を図3に示す.横軸が活動した週の数,縦軸がそ (注 2):単位時間の設定変更に伴い,(6) 式の閾値も適切に変更する必要がある と考えられる. (注 3):https://dev.twitter.com/docs/api/1/get/search
4
5
6
7
8
9
0
10 20 30 40 50 60 70
# of edges (10
x
)
# of active weeks
図 3 活動をした週数毎のユーザペア数0
1
2
3
# of reply (10
x
)
0
1
2
3
# of retweet (10
x
)
10
0
10
1
10
2
10
3
図 4 分析対象のユーザペアのリプライ,リツイート数の分布 のユーザペア数である.1週だけコミュニケーション活動をした ユーザペアは108を超過して存在し,64週コミュニケーション 活動をしたユーザペアは105程度存在する.本論文では,ユー ザペアのコミュニケーション活動の遷移に着目していることか ら,このうち, 全区間の半分である32週以上活動をしている ユーザペアのみ分析対象とする.この条件により得られたユー ザペア数は,4,018,686である. 分析対象としたユーザペアの,データ収集期間に計測したリ プライ数とリツイート数の分布を図4に示す.縦軸がリツイー ト数,横軸がリプライ数,各点の色がそのユーザ数である.縦 軸,横軸ともに常用対数でスケーリングしており,それぞれの 値に1を加算しリプライ,あるいはリツイート数が0のユーザ ペアも描画している.リプライ,あるいはリツイートを1度も したことがないユーザペアは103を超えて存在する.32週以 上のコミュニケーション活動を継続したユーザペアを抽出した ため,リプライ数かリツイート数は少なくとも32回計測され ている. 4. 2 分 析 結 果 4. 2. 1 算出した特徴量の頻度分布 分析対象としたユーザペアについて,本論文で提案した関係 性を測る特徴量を算出した.それぞれの特徴量の頻度分布を図 5,6,7に示す.いずれの図も,横軸がそれぞれの特徴量の値, 縦軸がその頻度である.mrpとmrtは小数点第2位で,com は小数点第1位で切り捨てし頻度を求めている.また,離散化 した特徴量の分布についても,それぞれの図の凡例で表示して いる.mrp,mrt共に値が0.0の頻度が他の値に比べて多いこ とから,単位時間に一方的なリプライ,リツート関係にあった ユーザペアが多かったことが分かる.mrpは値が1.0の頻度も 次いで多く,mrpの値が低くなるにつれてその頻度も減少して いる.mrtも,mrpに比べれば少ないものの,値が1.0の頻度 も多く存在していた.comは値が大きくなるにつれ,その頻度 も減少している. 4. 2. 2 各特徴量の出現パターンの頻度分布 離散化した特徴量の出現パターンの頻度を表1に示す.表 は3種類の特徴量の出現パターンを網羅しており,それぞれの パターンの頻度と共に,次節で説明する状態遷移図の簡略化 のため,それぞれの出現パターンに0からZまでのラベルを 付与している.ラベル0は離散化した特徴量の出現パターン(mtu,v, ru,vt , etu,v) = (0, 0, 0)を表し,全てのパターンの中で最 も多い頻度となった.F,G,H,O,P,Q,U,V,Wの9ラベル は,分析対象としたユーザペアのコミュニケーション活動から は一度も検出されなかった.F,G,H,O,P,Qに共通して見ら れる特徴は,リツイートが相互的である(rtu,v= 2)が,リプ ライが相互的でなかった(mtu,v |= 2).U,V,Wに共通して見 られる特徴は,リプライが相互的である(mtu,v= 2)が,リツ イートがやや一方的であった(rt u,v= 1).また,検出された パターンの中で最も少ない頻度だったラベルはEであった. 各パターンを経験したユーザペア数とその割合を,表1の最 も右の列に示す.ラベル0のパターンを経験したユーザペア数 は825,466ペア存在し,全体の95.2%が少なくとも1度はラベ ル0を経験している.ラベルRやSも,その割合が50%を超 えていることから,半分以上のユーザペアが相互的なリプライ を経験している.ラベルLは出現頻度が64,261,経験ペア数が 59,597でその数に大きな差がないことから,ラベルLを経験し たほとんどのユーザペアは,分析期間中に再びラベルLを経験 することはない. 各ユーザペアが経験したことのあるコミュニケーション活動 パターンの種類数を,図8に示す.縦軸がユーザペア数,横軸 がパターンの種類数である.2種類のパターンを経験したユー ザペアが最も多く,種類数の増加に従ってユーザペア数は減少 していき,17種類のパターンを経験したユーザペアは1ペア だけであった. 2種類,3種類,4種類のパターンを経験したユーザペアに ついて,どのようなパターンの組み合わせが多かったかを図9, 10,11に示す.横軸にパターンラベルの組合せを降順に10位 まで示し,その組合せを経験したユーザペアの頻度を縦軸に示 している.分析期間中に2種類のエッジを経験したユーザペア の内,最も頻度が多かったパターンの組合せは0Aであった.ま た,3種類では0RS,4種類では0IRSで,リプライが相互的な パターンR,Sを経験したユーザペア数が多い結果となった.
17種類のパターンを経験したユーザペアの,分析期間中のリ プライ数,リツイート数を図12に示す.横軸が時系列,左と 右の縦軸がそれぞれリプライ数とリツイート数である.また, 図の上部にそれぞれの時刻で付与したラベルを表示している. このユーザペアは互いにリプライ,リツイートで頻繁にコミュ ニケーション活動をしており,リプライ,リツイートが相互的 である際に与えられるラベルYを何度も経験している.表1で 頻度が0でないパターンの内,このユーザペアが経験していな いラベルはEだけであった. 4. 2. 3 パターン間の主要な遷移 分析対象としたユーザペアのパターンの遷移系列に基づき, パターン間の遷移確率pi,j を算出し,遷移を描いた結果を図 13に示す.遷移図はGraphviz(注 4)を用いて作成した.本論文 はパターン間の主要な遷移に着目していることから,確率が 0.056(注 5) を超えるエッジのみ描画している.特に,pi,j > 0.5 は赤色,0.5 >= pi,j > 0.4は橙色,0.4 >= pi,j > 0.3は黄色, 0.3 >= pi,j> 0.2は緑色,0.2 >= pi,j> 0.056は青色のエッジで 描いている.例えば,ラベル0,A,B,Sは,赤色のエッジが自 己に遷移していることからこのパターンに留まりやすく,A→ 0,B→ Aは,橙色のエッジであるため次いで遷移し易いこと を示している.ほとんどのラベルは自己に遷移しているエッジ を持っているが,LとXは自己遷移のエッジを持っていなかっ た.ラベル0,R,S,Yは多くのラベルから遷移先としてエッ ジを持っていた.
5.
考
察
5. 1 パターンの出現頻度から見た考察 表1から,離散化した特徴量における出現しやすいパターン は,上位から順にラベル0,S,R,Aであった.このうち,Aを 除くラベルは図13において,多くのパターンから遷移先とし てエッジを持っており,他のパターンから遷移先として辿り着 きやすいパターンであることが分かる.一方,ラベルAはラベ ル0とBから遷移先にされているだけである.ラベルAやBは, リプライ,リツイートが完全に一方的(mtu,v= rtu,v= 0)で, 活動的(etu,v>= 1)なユーザペアに与えられるパターンである. このようなユーザペアに想定される例として,一般ユーザと著 名なユーザや,リプライやリツイートを続けるBotアカウント と一般ユーザのような場合が考えられる.このようなユーザ間 の関係性は,リプライやリツイートが相互的になることはほと んどなく,コミュニケーション活動量が週によって変化してい たため,ラベル0,A,Bで閉じた遷移となったことが考えられ る.このことは,3種類のパターンを経験したユーザペア数を 示した図10において,パターンラベルの組合せの頻度2位に 0ABがあることからも示唆される. ラベルRやSは,リプライが相互的であるコミュニケーショ ン活動に与えられるラベルである.この2つのラベルは自己遷 (注 4):http://www.graphviz.org/ (注 5):観測できたパターン数が 18 種類であり,全てのパターンへ一様へ遷移 するとしたときの確率 1 18=0.056を閾値として用いた. 表 1 特徴量の出現パターンに基づき付与するラベル ラベル mtu,v ru,vt etu,v 出現頻度 経験ぺア数
0 0 0 0 71,175,753 3,825,466 95.2% A 0 0 1 13,817,934 1,646,174 41.0% B 0 0 2 308,905 75,218 1.9% C 0 1 0 935,829 333,892 8.3% D 0 1 1 445,855 103,919 2.6% E 0 1 2 14,858 4,085 0.1% F 0 2 0 0 0 0% G 0 2 1 0 0 0% H 0 2 2 0 0 0% I 1 0 0 3,223,799 1,410,512 35.1% J 1 0 1 3,035,731 1,040,483 25.9% K 1 0 2 124,754 47,003 1.2% L 1 1 0 64,261 59,597 1.5% M 1 1 1 557,109 263,644 6.6% N 1 1 2 69,016 32,311 0.8% O 1 2 0 0 0 0% P 1 2 1 0 0 0% Q 1 2 2 0 0 0% R 2 0 0 34,468,681 2,151,905 53.5% S 2 0 1 37,296,365 2,159,356 53.7% T 2 0 2 2,478,114 516,133 12.8% U 2 1 0 0 0 0% V 2 1 1 0 0 0% W 2 1 2 0 0 0% X 2 2 0 586,157 355,835 8.9% Y 2 2 1 4,965,252 925,020 23.0% Z 2 2 2 1,315,420 307,043 7.6% 移のエッジを高い確率で持っており,それぞれに留まりやすい パターンであると言える.すなわち,リプライが相互的である ユーザペアは,時間が経過してもその関係性を維持し易く,長 期に渡ってコミュニケーション活動ができる関係性であると考 えられる.ただし,リプライが相互的でコミュニケーション活 動が非常に活発(et u,v= 2)であるラベルTは,RやSに比べ ると頻度も少なく他のパターンから遷移先としてのエッジを多 く持っていない.また,コミュニケーション活動量から見ると, ラベルR,S,Tの順にその値が大きくなるが,これらのパター ンの間に存在するエッジはR↔ S ← Tだけで,RやSからよ りコミュニケーションが活発なTへの主要な遷移は確認できな かった.これらの結果から,リプライが相互的な関係性は,1 週間におよそ同じ量のコミュニケーション活動をしていて,そ れがやや少なくなったり多くなったりするものの,いきなり増 大するケースは少ないことを示唆している. 以上の結果から,Twitterにおける主要なコミュニケーショ ン活動のパターンは,リプライやリツイートが完全に一方的な 関係性,あるいはリプライのみ相互的でありコミュニケーショ ン活動がやや活発な関係性であると考えられる. 表1で出現頻度が0のパターンに注目すると,リツイートが 相互的(rt u,v = 2)なパターンF,G,H,O,P,Qが確認でき る.リツイートが相互的なパターンの内,頻度が0でないもの はリツイートも相互的なパターンX,Y,Zである.この結果か
5 6 7 8 9 0.0 0.2 0.4 0.6 0.8 1.0
Frequency (10
x)
mrp
m=0 m=1 m=2 図 5 mrp値の頻度分布 5 6 7 8 9 0.0 0.2 0.4 0.6 0.8 1.0Frequency (10
x)
mrt
r=0 r=1 r=2 図 6 mrt値の頻度分布 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10Frequency (10
x)
com
e=0 e=1 e=2 図 7 com値の頻度分布0
1
2
3
4
5
6
7
0 2 4 6 8 10 12 14 16 18
# of edges (10
x
)
# of experience patterns
図 8 パターンの経験回数毎のユーザペア数 ら,リツイートが相互的なユーザペアは,リプライも相互的な 関係性を持つことが分かる.また,その他の頻度0のパターン U,V,Wは,リプライが相互的でリツイートがやや一方的な関 係性である.リプライが相互的なパターンに着目すると,頻度 0がこの3種類だけであることから,相互的なリプライをして いるユーザペアは,完全に一方的なリツイートかほぼ相互的な リツイートをしている関係性に限られていると示唆される. 5. 2 留まりにくいパターンに関する考察 図13では,多くのパターンが自己へ遷移するエッジを持っ ており,時間が経過してもその関係性を維持し易いパターンが 多く存在することが分かる.しかし,ラベルLとXは自己へ遷 移するエッジを持っておらず,留まりにくい関係性と考えられ る.まず,ラベルLに注目すると,このパターンはリプライや リツイートがやや一方的(mt u,v= rtu,v= 1)で,コミュニケー ション活動は活発でない(etu,v= 0).Lからの主要な遷移は, リプライが相互的なRとSを緑色のエッジで,リプライとリツ イートが相互的なYを青色のエッジで確認できる.ラベルXは, リプライとリツイートが相互的(mt u,v= rtu,v= 2)で,コミュ ニケーション活動は活発でない(et u,v= 0).Xからの主要な遷 移は,ラベルLと同様にRとSを黄色と緑色のエッジで,Cと Yを青色のエッジで確認できる.これらの結果から,ラベルL とXが与えられたユーザペアは,リプライとリツイート共にや り取りをしているがその量は少ない関係性であり,時間の経過 に従い2種類の遷移をすると考えられる.1つ目の大きな遷移 先は,リプライが相互的になったRやSで,ユーザペアがリプ ライを重視したことを示唆できる.2つ目は,1つ目の遷移に 比べれば確率は低いものの,リプライとリツイート共に相互的 になり,またコミュニケーション活動量が増加したYで,ユー ザペアがリプライとリツイートを共に重視したときの遷移先と 示唆できる. 5. 3 コミュニケーション活動量から見た考察 コミュニケーション活動量の大きさetu,vで見ると,表1で 頻度が0以外のパターン18種類は,0 < A < Bのグルー プ(mtu,v = ru,vt = 0),C < D < Eのグループ(mtu,v =0, rt
u,v= 1),I < J < Kのグループ(mtu,v= 1, rtu,v = 0),
L < M < Nのグループ(mt u,v = ru,vt = 1),R < S < T のグループ(mtu,v = 2, ru,vt = 0),X < Y < Zのグループ (mtu,v= rtu,v= 2)の6グループに分けられる.もしも,ユー ザペアがリプライとリツイートの相互性を保ったまま,コミュ ニケーション活動量のみが増減していれば,これらのグループ 間に主要な遷移ができる.実際に描いた遷移図でこれらのグ ループに着目すると,0↔ A ← B,C↔ D ← E,J← K,M← N,R↔ S ← T,X→ Y ← Zで,最も活発なetu,v = 2を持つ パターン(B,E,K,N,T,Z)への遷移は確認できない. 一方,これらのパターンの間では,E→ ZやK→ T,N→ Z などの遷移が確認できる.以上の結果から,コミュニケーショ ン活動が活発なユーザペアでは,その活動量に大きな変化はな いが,リプライ,リツイートの相互性が変化しているユーザペ アが多く存在していることが示唆できる.
6.
結
論
本論文では,Twitterにおけるユーザ間のコミュニケーショ ン活動に基づく関係性を特徴づけるため,ユーザ間の相互のリ プライ数とリツイート数を用いた指標とコミュニケーション活1 2 3 4 5 6 7 0A RS ST 0R AB 0C JS 0B 0S JK
# of edges (10
x)
図 9 2種類のパターンを経験したユーザペア 2 3 4 5 60RS 0AB IRS RST JRS RSY 0IR 0CD JST STZ
# of edges (10
x)
図 10 3種類のパターンを経験したユーザペア 3 4 5 60IRS0JRS0RSY0RSTIJRSJRST0RSXIRST0ARSRSTY
# of edges (10
x)
図 11 4種類のパターンを経験したユーザペア0
50
100
150
200
250
0
10
20
30
40
50
60
0
5
10
15
20
25
Reply
Retweet
U’s RP
V’s RP
U’s RT
V’s RT
Y0YS0JSSXCY00JYYYM0ZY0D0R000RSDMDMNDM00YY0YNLKKMINTR0B0C0A
図 12 あるユーザペアのコミュニケーション活動の遷移例 動量を定義し,1週間毎のユーザ間の関係性をパターンに分類 する分析手法を提案した.パターン間の遷移確率を算出するこ とで,頻繁に遷移する関係性や維持しやすい関係性などを明ら かにすることができる. 長期的にコミュニケーション活動をしたユーザペアを用いた 分析の結果,次のことを明らかにした. (1) 完全に一方的なリプライ,リツイート関係にあるユー ザペアは数多く存在し,その関係性が相互的なものに変化して いく確率は低い. (2) 相互的なリプライ関係にあるユーザペアは,その関係 性を継続できる確率が高い. (3) 相互的なリツイート関係にあるユーザペアは,リプラ イも相互的である確率が極めて高い. (4) コミュニケーション活動量が活発なユーザペアは,そ の量は変わらず,関係性のみ変化する確率が高い. (5) コミュニケーション活動量が活発でないユーザペアは, 微小な増減はするものの,その関係性を維持したまま活発にな る確率は低い. 今後の課題は,2ユーザの関係性を表す特徴量を拡張し,よ り詳細な分析をすることである.例えば,同じツイートを何 度リツイートしたかという「共引用」に基づく特徴量や,同じ ユーザに何度リプライをしたかというコミュニケーション相手 の一致度などを導入する予定である.謝
辞
本研究は,NII戦略研究公募型共同研究,およびJSPS科研 費25280110,15J05599の助成を受けたものです. ここに記し て謝意を示します. 文 献[1] Meeyoung Cha, Hamed Haddadi, Fabricio Benevenuto, and
Krishna Gummadi. Measuring user influence in twitter: The million follower fallacy. In Proceedings of the 4th
Interna-tional AAAI Conference of Web and Social Media, ICWSM
’10, pp. 10–17, 2010.
[2] Dan Chalmers, Simon Fleming, Ian Wakeman, and Des
Watson. Rhythms in twitter. In PASSAT/SocialCom
2011, Privacy, Security, Risk and Trust (PASSAT), 2011 IEEE Third International Conference on and 2011 IEEE Third International Conference on Social Computing (So-cialCom), Boston, MA, USA, 9-11 Oct., 2011, pp. 1409–
1414, 2011.
[3] Justin Cheng, Cristian Danescu-Niculescu-Mizil, and Jure
Leskovec. Antisocial behavior in online discussion commu-nities. In Proceedings of the 9th International AAAI
Con-ference of Web and Social Media, ICWSM ’15, pp. 61–70,
2015.
[4] Cristian Danescu-Niculescu-Mizil, Robert West, Dan
Juraf-sky, Jure Leskovec, and Christopher Potts. No country for old members: User lifecycle and linguistic change in on-line communities. In Proceedings of the 22Nd International
Conference on World Wide Web, WWW ’13, pp. 307–318,
2013.
[5] Gideon Dror, Dan Pelleg, Oleg Rokhlenko, and Idan
Szpek-tor. Churn prediction in new users of yahoo! answers. In
Proceedings of the 21st International Conference on World Wide Web, WWW ’12 Companion, pp. 829–834, 2012.
[6] Rumi Ghosh, Tawan Surachawala, and Kristina Lerman.
Entropy-based classification of ’retweeting’ activity on twit-ter. CoRR, Vol. abs/1106.0346, , 2011.
0 A R 0.5>=p>0.4 S B p>0.5 C 0.2>=p D Y 0.3>=p>0.2 E N Z J M T I K 0.4>=p>0.3 L X 図 13 パターン間の遷移図
prediction in mmorpgs: A social influence based approach. In Proceedings of the 2009 International Conference on
Computational Science and Engineering - Volume 04, CSE
’09, pp. 423–428, 2009.
[8] Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue
Moon. What is twitter, a social network or a news
me-dia? In Proceedings of the 19th International Conference
on World Wide Web, WWW ’10, pp. 591–600, 2010.
[9] Seth A. Myers and Jure Leskovec. The bursty dynamics of
the twitter information network. In Proceedings of the 23rd
International Conference on World Wide Web, WWW ’14,
pp. 913–924, 2014.
[10] Nicholas Navaroli and Padhraic Smyth. Modeling response
time in digital human communication. In Proceedings of
the 9th International AAAI Conference of Web and Social Media, ICWSM ’15, pp. 278–287, 2015.
[11] Jiliang Tang, Shiyu Chang, Charu Aggarwal, and Huan Liu.
Negative link prediction in social media. In Proceedings of
the Eighth ACM International Conference on Web Search and Data Mining, WSDM ’15, pp. 87–96, 2015.
[12] Fujio Toriumi, Takafumi Nakanishi, Mitsuteru Tashiro, and
Kiyotaka Eguch. Analysis of user behavior in private
chat system. In The Third International Workshop on
Data Oriented Constructive Mining and the Seventh In-ternational Workshop on Emergent Intelligence Networked Agents, 2015.
[13] Beidou Wang, Can Wang, Jiajun Bu, Chun Chen, Wei
Vi-vian Zhang, Deng Cai, and Xiaofei He. Whom to mention: Expand the diffusion of tweets by @ recommendation on micro-blogging systems. In Proceedings of the 22Nd
Inter-national Conference on World Wide Web, WWW ’13, pp.
1331–1340, 2013.
[14] Yutaro Yamaguchi, Shuhei Yamamoto, and Tetsuji Satoh.
Behavior analysis methods for twitter users based on tran-sitions in posting activities. International Journal of Web
Information Systems, Vol. 10, pp. 363–377, October 2014.
[15] Yuto Yamaguchi, Mitsuo Yoshida, Christos Faloutsos, and
Hiroyuki Kitagawa. Patterns in interactive tagging
net-works. In Proceedings of the 9th International AAAI
Con-ference of Web and Social Media, ICWSM ’15, pp. 513–522,
2015.
[16] Jiang Yang and Scott Counts. Comparing information
diffu-sion structure in weblogs and microblogs. In Proceedings of
the 9th International AAAI Conference of Web and Social Media, ICWSM ’10, pp. 351–354, 2010.
[17] 田中成典, 中村健二, 加藤諒, 寺口敏生. マイクロブログの投稿時
間に着目したユーザの職業推定に関する研究. 情報処理学会論文 誌データベース(TOD), Vol. 6, No. 5, pp. 71–84, dec 2013.
[18] 田中成典, 中村健二, 寺口敏生, 中本聖也, 加藤諒. マイクロブロ
グから抽出したユーザの習慣に基づく行動推定に関する研究. 情 報処理学会論文誌 データベース, Vol. 6, No. 3, pp. 73–89, jun 2013.
[19] 島田諭, 山口裕太郎, 佐藤哲司. マイクロブログにおける情報伝
搬距離に着目したユーザプロファイリング. 電子情報通信学会 他共催, 第 4 回データ工学と情報マネジメントに関するフォーラ ム (DEIM2012), D8-5, 2012.