情報拡散過程のダイナミクス：非線形モデルの提案と情報予測

全文

(1)情報処理学会論文誌. データベース. Vol.6 No.5 11–22 (Dec. 2013). 情報拡散過程のダイナミクス：非線形モデルの提案と情報予測松原靖子1,a). 櫻井保志1. B. Aditya Prakash2. Lei Li3. Christos Faloutsos4. 受付日 2013年6月21日, 採録日 2013年8月8日. 概要：ブログや Twitter をはじめとするソーシャルメディアの発展により，情報交換が活発化し，情報の拡散が非常に速くなっている．本論文では，ソーシャルメディア上における情報拡散と減衰を表現するモデルである SpikeM について述べる．SpikeM は，(a) 情報の拡散過程においてパワー則に基づく減衰パターンを有し，(b) 有限のノード（ユーザ）を仮定し，(c) 周期性を持つ．モデルの利用により，拡散する情報の質やネットワーク規模のような有用な情報を推定することが可能となり，さらに外れ値検出や時系列予測等の実用的なタスクを処理することができる．実データを用いた実験では，提案モデルが効果的に情報拡散のパターンを表現することを示した．キーワード：情報拡散，ソーシャルネットワーク. Dynamics of Information Diffusion in Social Networks Yasuko Matsubara1,a). Yasushi Sakurai1 B. Aditya Prakash2 Christos Faloutsos4. Lei Li3. Received: June 21, 2013, Accepted: August 8, 2013. Abstract: The recent explosion in the adoption of search engines and new media such as blogs and Twitter have facilitated faster propagation of news and rumors. How quickly does a piece of news spread over these media? Does the rising and falling pattern follow a simple universal law? In this paper, we propose SpikeM, a concise yet flexible analytical model for the rise and fall patterns of influence propagation. Our model has the following advantages: (a) unification power: it generalizes and explains earlier theoretical models and empirical observations; (b) practicality: it matches the observed behavior of diverse sets of real data; (c) parsimony: it requires only a handful of parameters; and (d) usefulness: it enables further analytics tasks such as forecasting, spotting anomalies, and interpretation by reverse-engineering the system parameters of interest (e.g. quality of news, count of interested bloggers, etc.). Using SpikeM, we analyzed 7.2 GB of real data, most of which were collected from the public domain. We have shown that our SpikeM model accurately and succinctly describes all the patterns of the rise-and-fall spikes in these real datasets. Keywords: information diffusion, social networks. 1. まえがきブログや Twitter をはじめとするインターネットメディ. アの普及により，オンライン上でのニュースや噂の伝播速度が増している．あるニュースは緩やかに拡散し，ゆっくりと減衰していく．一方で，別のニュースは急激に伝わると同時に，すぐに消えていく．本論文では，ニュースをは. 1 2 3 4 a). 熊本大学 Kumamoto University, Kumamoto 860–8555, Japan Virginia Tech., Blacksburg, VA 24060, U.S.A. University of California, Berkeley, CA 94720–1776, U.S.A. Carnegie Mellon University, Pittsburgh, PA 15213–3891, U.S.A. [email protected]. c 2013 Information Processing Society of Japan . じめとする情報がオンラインメディア上でどのように伝わり，減衰していくかに着目する．ソーシャルメディア上における情報伝播の解析は非常に重要な問題である．特に，拡散と減衰のダイナミクスの解明は現在さかんに行われている研究の 1 つである．YouTube. 11.

(2) 情報処理学会論文誌. データベース. Vol.6 No.5 11–22 (Dec. 2013). 表 1. 既存手法との比較. Table 1 Capabilities of approaches. Only our approach meets all specs.. パワー則による減衰. C-S √. K-SC. システム同定非線形性周期性将来予測の能力. SI. AR. √. √. √ √. SPIKEM √ √. √. √. √. √. ントの質・注目度 β ，(c) イベント直後（時刻 nb ）に影響を受けるノード（ユーザ）の数 Sb が与えられたとき，情報拡散過程のダイナミクスを表現する．もう 1 つの重要な問題は，情報拡散過程のパターンが与えられたうえで，そのダイナミクスを図 1 にあるように，単一のモデルで表現することである．図1. 問題 2 情報拡散過程のパターンが与えられたとき，少オンラインメディア上に現れる 6 つの代表的な情報拡散パターン（K-SC [43]）と SpikeM の効果. Fig. 1 Modeling power of SpikeM: six types of spikes (K-SC from [43]) in dots, and our model fit in solid red line.. ない数のパラメータを用いて，それらのダイナミクスを柔軟に表現する非線形モデルを推定する．ここで重要な点として，情報拡散の分析において，モデルの各パラメータは直感的な意味を持つことが望ましい．. データを用いた先行研究 [6] では，情報拡散には 4 種類. たとえば，ユーザの総数，ニュースの注目度等の意味のあ. （endogenous-subcritical，endogenous-critical，exogenous-. る数値をパラメータとして扱いたい．逆にいえば，自己回. subcritical，exogenous-critical）のパターンがあり，ブロ. 帰モデル（AR: autoregressive model）のような既存のモ. グデータを用いた文献 [43] では，図 1 にあげるように，. デルでは，a1 ，a2 といった，係数値を用いて時系列データ. 主に 6 種類の拡散パターンが存在すると主張されている．. を表現するため，パラメータ単体では意味を持たず理想的. 一方，本研究では，まったく別の視点からこの問題に取り. とはいえない．加えて，情報拡散のモデルはシンプルであ. 組む．我々の手法は，“単一のモデル” によって，これらの. るべきである．すなわち，モデルパラメータはできる限り. 様々な情報拡散のパターンを表現する．提案モデルである. 少ない方が望ましい．. SpikeM [27] *1 はシンプル（データセットのサイズと比較し少ない数のパラメータ）であるにもかかわらず，上記のあらゆるダイナミクスを生成することができる．. 1.1 関連研究と本研究の位置づけ本研究で提案する非線形モデル SpikeM は，(a) 情報の. 図 1 は，オンラインメディアにおける 6 つの代表的な情. 拡散過程においてパワー則に基づく減衰パターンを有し，. 報拡散のパターン（黒点線）と，それに対する SpikeM の. (b) 有限のノード（ユーザ）を仮定し，(c) 周期性を持つ．. 学習結果（赤線）である．それぞれのシーケンスは 1 時間. 従来研究には，これらの特長をすべて持つモデルは存在し. ごとの情報の伝播数で，長さは 5 日間である．SpikeM は. ない．たとえば，AR や ARIMA に代表される時系列モデ. 7 つのパラメータを使用することによって，6 種類すべて. ルは線形であり，指数則に基づく減衰パターンを持つため，. の拡散パターンを高精度で表現することができる．. 実データのパターンを表現できない．加えて，無限大に発. 本論文の目的は，ブログ等に代表されるオンライン上の. 散する可能性がある．表 1 は既存研究と SpikeM の能力. 情報拡散過程を，時系列モデルとして表現することである．. の比較である．Crane と Sornette らによる C-S 法 [6] は，. 以下では簡略化のために主にブログの例について言及する. ノード（ユーザ）の総数に関する有限性を保証していない．. が，提案手法は他の様々な拡散過程（購買数の変化，コン. K-SC [43] による代表的な拡散パターン（図 1）はパラメ. ピュータウィルスの伝染，Twitter 上での噂の伝播等）に. トリックなモデルではなく，将来予測の能力を有さない．. おいてもモデル化が可能である．本論文で取り組む問題は. SI モデルは数理疫学における代表的な非線形モデルであ. 以下のとおりである．. り，マーケティングにおける新製品の拡散過程を表現する. 問題 1 事前情報として，(a) ブログユーザの数 N とネッ. Bass モデル [3] に近い性質を持つ．SI モデルはピーク時ま. トワーク構造，(b) あるイベントの発生時刻 nb とそのイベ. での拡散過程とその後の減衰両方において，指数則に従う. *1. ソースコード：http://www.cs.cmu.edu/˜yasuko/SRC/ spikeM.zip. c 2013 Information Processing Society of Japan . という性質を持つため，実データにおけるパワー則の減衰パターンを表現できない．. 12.

(3) 情報処理学会論文誌. データベース. Vol.6 No.5 11–22 (Dec. 2013). 1.2 本論文の貢献. SpikeM の中で最も重要な要素は減衰関数 f (τ ) である．. 本論文では情報拡散過程の解析ためのモデルとして. これは，時間 τ が経過するにつれて，そのブログポストが. SpikeM [27] について述べる．SpikeM は以下のような特. どの程度の影響力を与えるかを示す．なお，既存の数理疫. 長がある．. 学モデルである SI モデルでは，減衰関数 f () を定数であ. • 既存研究における情報拡散モデルを一般化し，文. ると仮定している．これはたとえば，1 度病気になった患. 献 [20], [43] を含む様々なパターンを表現する．. 者がそれ以降つねに一定の確率で病気を他者へ感染させる. • 少ないパラメータ数で構成され，それぞれのパラメー. ようなケースである．しかし，近年の分析によると，情報. タが直感的な意味を有する．. 拡散における影響力はパワー則に基づき時間とともに減衰. • SpikeM の利用により，将来の予測や外れ値検出等の. していく例が数多く見られている．. 重要なアプリケーションを実現する．. 2. 提案モデル. 提案モデルは以下のような振舞いをする．. • イベント（ニュース）が発生する時刻 nb までは何も起きない．. 本章では，ネットワーク上における情報拡散過程を表現. • 時刻 nb にイベントが発生すると同時に，即座に Sb 人. するモデルである SpikeM について述べる．提案モデル. のブログユーザがそのニュースに関する記事をブログに. は，図 1 にあげられるような実際の情報拡散過程における. ポストする．. 特徴を表現する必要がある．その特徴とは，まず (a) 無限. • 他のブログユーザが，すでにポストされたイベントに. 大に発散することなく必ず収束することを保証し，(b) 情. 関する記事を読み，一定の確率でそのニュースの影響を. 報拡散はパワー則に基づき減衰していくこと，そして，(c). 受ける．その後イベントの影響を受けた（ニュースにつ. 周期性を持つことである．(a) については，ネットワーク上. いて通知された）ユーザは自身のブログ内でそのニュー. のユーザの数を有限とすることで解決できる．(b) につい. スについて言及（ポスト）する．. ては，ネットワークの各ノード（ユーザ）の感染力をべき指. 本手法ではモデルをシンプルにするため以下の条件も加. 数（たとえば −1.5）によって減衰させることで表現するこ. える．. とができる．(c) については，ユーザの時間帯ごとの活動の. • ブログユーザは同じニュースに関する記事を 1 度しか. 変化を考慮することでモデルをより現実的なものとする．. ポストしない．. • それぞれのイベントは完全独立の関係にあり，1 つの 2.1 SPIKEM の概要. イベントに対し外部ショックは 1 度しか加えられない．. ここでは，提案するモデルの概要を示すと同時に，SpikeM. 我々の目的は，時刻 n においてブログポストを行った. を構成するパラメータの説明を行う．提案モデルは，初め. ユーザの数 ΔB(n) を，時刻 n とその他のパラメータに関. に N 人のブログユーザを想定する．この時点では，どの. する式で表現することである．ここでのパラメータとは，. ユーザもイベント（ニュース）について知らされておらず，. ブログユーザの総数 N やニュースの影響力の強さ β 等で. ブログサイトにも記事をポストしていないものとする．続. ある．この時点では，まだ周期性については考慮しない．. いて，時刻 nb に特定のイベントが発生する．ここでいう. この基本的なモデルを SpikeM-Base と呼ぶ．. イベントとは，たとえば，インドネシアの津波のニュースの速報や，選挙活動のスピーチに関する話題を指す．すると時刻 nb においてまず，即座に Sb 人のユーザが自身のブログにポストする．本論文では，このようなイベントを外. 2.2 SPIKEM-BASE SpikeM は次にあげられる 2 つの状態のノード（ブログユーザ）から構成される．. 部からのショックと呼ぶ．nb はイベントの誕生時刻，Sb. • U（Un-informed）：ニュースの内容をまだ通知されて. はイベントの外部からのショックの強さを示す．. いないブログユーザ. さらに，ニュース（イベント）の質，注目度に関するパ. • B（Blogged）：ニュースを通知され，その後ブログに. ラメータとして β を用いる．もし β = 0 だった場合，その. ニュースの内容をポストしたユーザ. ニュースは誰からも注目されていないため，すぐに消えて. 時刻 n の時点でまだそのニュースの影響を受けていない. しまう．β が高い値の場合は，より多くのユーザが興味を. ユーザの数を U (n) とする．時刻 n にニュース内容を通知. 持ち，ブログポストを行う．ここで，β ∗ N は，初期のイ. されたユーザの数を ΔB(n) とする．1 度ニュースについ. ベントの強さ（イベントの影響力）を示す．これは，1 人. て通知され影響を受けたユーザは，その噂についてただち. のユーザがニュースを知らされたときに，次の時刻に何人. に（時刻 n に）自分のブログへポストすることとする．. のユーザが影響されるかを表現する*2 ．. モデル 1（SPIKEM-Base）提案モデル SpikeM-Base は，以下の 2 つの式から構成される．. *2. 厳密には N − 1 人であるが，簡略化のために N とする．. c 2013 Information Processing Society of Japan . 13.

(4) 情報処理学会論文誌. Vol.6 No.5 11–22 (Dec. 2013). データベース. ΔB(n + 1) n = U (n) · ΔB(t) + S(t) · f (n + 1 − t) + . 表 2. Table 2 Symbols and definitions.. (1). t=nb. U (n + 1) = U (n) − ΔB(n + 1). (2). ここで，. f (τ ) = β ∗ τ −1.5. 主な記号と定義. (3). 記号. 定義. N. あるイベントに影響されるユーザの潜在的な人数. nd. シーケンスの長さ. n. 時刻（n = 0, . . . , nd ）. U (n). Un-informed：ニュースの内容を通知されていないユーザ数. B(n). Blogged：ニュースの内容を通知されたユーザの総数. ΔB(n) 時刻 n においてニュースを通知されたユーザ数. であり，初期状態を次のように設定する．. ΔB(0) = 0, U (0) = N また，外部ショックとして S(n) を考える．これは，イベントの誕生時刻 nb に与えられる影響の大きさで，次のような式で表現される．. . S(n) =. 0. (n = nb ). Sb. (n = nb ). f (τ ). あるブログポストの τ 時刻後におけるの影響力（感染力）. β. イベント（ニュース）の影響力の強さ. S(n). 時刻 n における外部ショックの大きさ. nb. ニュース速報が報道された時刻（イベントの誕生時刻）. Sb. イベント誕生時刻 nb における外部ショックの強さ. Pp. 周期（1 日周期等）. Pa. 周期の振幅. Ps. 周期の位相. (4) 時間帯ごとの活動の変化は，モデル 1 では表現できない．. 2.2.1 提案モデルの根拠. モデル 2（SPIKEM）提案モデル（SpikeM）は，以下. ここではモデル 1 の細部を考察する．. • 部分式 ΔB(t) + S(t) は，時刻 t における，ニュースを通知されたユーザの数，外部ショック（ニュースサイトによる報道等）の強さの和である．この部分式が他のユーザに与える影響力（感染力）は，時間の経過とともに減少. の式によりブログユーザの周期的な活動を表現する．. ΔB(n + 1) = p(n + 1)· n U (n) · ΔB(t) + S(t) · f (n + 1 − t) + t=nb. し，これを減衰関数 f () で表現する．最終的には，イベントの誕生時刻 nb からのすべての時刻（t = nb , . . . , n）における部分式の影響力の総和を計算することで，現時刻における全体での影響力を得る．. • 影響力を示す f () は，パワー則に従う．ここでは，先行研究 [2], [21] に基づき，−1.5 のベキ指数を用いる．. (5). p(n) = 1 − 12 Pa sin P2πp (n + Ps ) + 1. (6). ここで，U (n)，S(t)，f (n) は，モデル 1 と同様とする．モデル 2 はモデル 1 に周期関数 p(·) を加えたものである．. • 時刻 n の時点でまだニュースを知らされていない U (n). このモデルでは，ニュースを受け取る可能性のあるユーザ. 人のユーザのうち，新たにニュースの影響を受けるユー. の数 U (·) が時間帯によって変動する．たとえばユーザが. ザの数は，過去すべての時刻における影響力の総和と. 就寝している時間帯にはニュースの拡散力が弱まり，少人. U (n) の積により決定される．. 数しかそのイベントの影響を受けない（感染しない）．周. • ノイズは，イベントとは独立の要因を示す．たとえ. 期関数 p(·) は以下で構成される．. ば，Twitter における #egypt というハッシュタグは，一. • 周期 Pp ：24 時間等の周期性を示す．. 般的な意味におけるエジプトに関するツイートと，2012. • 位相 Ps ：周期のずれを示す．. 年 11 月にタハリール広場で起きた抗議デモのニュース. • 振幅 Pa ：周期性の強弱を示す．. に関するツイートが独立に存在している．多くの場合に. たとえば毎日昼に活動が大きくなる場合，Pp = 24 hours，. おいて， 0 となる．上記の定義に加えて，B(n) =. n t=0. Ps = 18 となる．振幅 Pa が大きいと，時間帯によるユー ΔB(t) となり，ブ. ログユーザの総数 N は固定であると考える．つまり，. ザの活動量に差が出る．周期性が見られない場合，Pa = 0 となる．. B(n) + U (n) = N である． 2.4 モデルパラメータの学習 2.3 周期性をともなう情報拡散モデル：SPIKEM-FULL. 提案モデルは 7 つのパラメータで構成される：θ =. 本章の冒頭で示したとおり，ユーザの活動には周期性を. {N, β, nb , Sb , , Pa , Ps }. 実際のシーケンス X(n)，n =. ともなうことがある．たとえば，夜中や明け方は，ブログ. 1, . . . , nd が与えられたとき，本手法は最小二乗法に基. の活動を停止しているユーザが多く，一方で日中には大量. づき次式で表現されるエラーの総和が最小になるようなパ. のブログポストが発生していると考えられる．このような. ラメータを選ぶことでモデルの学習を行う：. c 2013 Information Processing Society of Japan . 14.

(5) 情報処理学会論文誌. データベース. Vol.6 No.5 11–22 (Dec. 2013). 表 3. K-SC（図 1）における 6 つの情報拡散パターンに対する学習モデルのパラメータの値. Table 3 The model parameters of our SpikeM best fitting on six patterns of K-SC (see Fig. 1). C1. C2. C3. C4. C5. C6. N. 2407. 1283. 1466. 3079. 4183. 3435. β∗N. 0.95. 1.00. 0.86. 0.92. 0.79. 0.69. nb. 26. 17. 40. 35. 0. 34. Sb. 4.73. 0.06. 114.13. 23.24. 2.58. 45.58. . 0.36. 0.01. 0.43. 1.48. 0.32. 13.97. Pa. 0.18. 0.06. 0.22. 0.38. 0.28. 0.39. Ps. 12. 5. 7. 6. 2. 2. モデルは，上昇，減衰ともに指数則に基づくという性質があるため，拡散プロットにおいては高い精度である一方，減衰時にはうまくパターンを表現していない．. 3. 評価実験図 2 SpikeM と SI モデルによる図 1（C1）の学習結果の比較．提案手法（赤線）は指数則に基づき拡散し，パワー則で減衰する．一方 SI モデル（青線）は，拡散，減衰ともに指数則に従う. Fig. 2 Fitting results of SpikeM vs. SI for pattern C1 in Fig. 1.. SpikeM の有効性を検証するため，実データを用いた実験を行った．本実験は，以下の諸問題に取り組む．. ( 1 ) 実データを用いた提案モデルの精度の検証（Q1-3） ( 2 ) SpikeM を用いた予測精度の検証（Q4）. The original sequence (in gray circles), and our model (red line) have an exponential rise and a power-law drop.. D(X, θ) =. 3.1 データセット本論文では以下のデータセットに対し評価実験を行った．. nd . (X(n) − ΔB(n))2 .. (7). • MemeTracker *3 : このデータセットはアメリカ国内のブログにおいて 3 カ月間（2008/8/1–10/31）に発生した. n=1. フレーズ（meme）を集めたものである．フレーズは，主. なお，SpikeM は強い非線形性を持つため，モデルの学. に政治や時事ニュース等に関連する内容である．本研究. 習にはパラメータの発散に頑健なレーベンバーグ・マル. ではフレーズの中から特に出現回数の多かった 1,000 個. カート法（LM: Levenberg-Marquardt）[22] を用いた．. 2.5 モデルの分析—指数則とパワー則 SpikeM は，既存の拡散モデルとは決定的に異なる特長がある．それは，指数則で情報が拡散したのちパワー則. のフレーズとそのフレーズが頻出する 1 週間のシーケンスを選び使用した．. • Twitter *4 : このデータは，Twitter 内で 8 カ月間（2011/6/1–2012/1/1）に現れたハッシュタグを収集したものである．本実験では，700 万以上のツイートの中か. で減衰していくことである．本節では，実データを用いて提案モデルの表現能力を分析する．図 2 は，図 1（パターン C1）の情報拡散過程をそれぞれ SpikeM と SI モ. ら，頻出するハッシュタグを 10,000 件選び使用した．. • GoogleTrends *5 : このデータセットは，Google による検索クエリの頻度を集計したものである．各シーケンス. デルを用いて学習した結果である．ここで，ブログユーザ. が各クエリ（たとえば “tsunami” や “harry potter”）の. ΔB() の波がピークに達した時刻を nmode とする（この場. 出現頻度を表す．. 合 nmode = 42）．図 2 (b)，(d) はイベント誕生の時刻 nb からピーク nmode までの間のシーケンスを x 軸の方向に反転したプロットであり，これを拡散プロットと呼ぶ．同様に，図 2 (c)，(e) はピーク nmode から時刻 n までの部分シーケンスを示しており，これを減衰プロットと呼ぶ．それぞれ，線形スケール，対数スケールにおいて比較を行った．図に示すとおり，実データは指数則の上昇と，パワー則の減衰パターンを持っており，SpikeM は高い精度でのフィッティングに成功している．一方，既存手法である SI. c 2013 Information Processing Society of Japan . 3.2 Q1：K-SC クラスタにおけるモデルの精度このデータセットに関する結果はすでに 1 章の図 1 において示している．図 1 のとおり，SpikeM は，ブログメディアにおける代表的な拡散パターンを高精度で表現している．表 3 はモデルの学習結果の詳細である．SpikeM *3 *4 *5. http://memetracker.org/ http://twitter.com/ http://www.google.com/insights/search/. 15.

(6) 情報処理学会論文誌. データベース. Vol.6 No.5 11–22 (Dec. 2013). は 7 つのパラメータで表現され，それぞれが拡散パターン. るが，C2 はより強い影響力 β ∗ N = 1.0 を持っているパ. の具体的な振舞いを説明している．まず，潜在的なユーザ. ターンであることが分かる．外部ショックの強さ Sb につ. の総数 N はすべてのシーケンスパターンにおいて 2,000∼. いては，パターン C3 が時刻 nb = 40 において Sb = 114 と. 3,000 の間となっている．これはピーク時の値が 100 にな. いう高い値を持っている．これは，C3 が他のパターンに. るようにデータを正規化しているためである．続いて，イ. 比べ，外部からのショックを強く受けていることを意味し. ベントの影響力の値である β ∗ N は 0.7 − 1.0 の間となっ. ている．パターン C4，C5，C6 は，強い周期性がある点が. ている．C1 と C2 は非常に近い性質を持ったパターンであ. 特徴的である．これは Pa 0.4 というパラメータによっ. 表 4 K-SC における SpikeM と SI モデルの精度比較（RMSE ）. Table 4 Fitting accuracy of SI vs. SpikeM on six patterns of K-SC. SpikeM consistently outperforms SI with re-. て確認できる．C4 と C5 の違いは位相のずれ（Ps = 6, 2）による違いが顕著であり，一方 C6 は強いバックグラウンドノイズ = 13.97 を含む．このことから，C6 は情報拡散. spect to accuracy (RMSE ) between the original val-. パターンのほかに，独立要因による影響を受けていると考. ues and the models.. えられる．. Pattern. C3. C4. C5. C6. 表 4 は，フィッティングの精度比較である．ここでは二. C1. C2. SPIKEM. 1.84. 1.61. 0.97. 4.08. 3.33. 5.89. 乗平均誤差（RMSE ）を用いて実データとモデルの比較を. SI. 15.64. 6.78. 19.65. 25.29. 20.36. 21.76. 行った：RMSE =. 1 nd. nd n. (X(n) − ΔB(n))2 . ここでは. 図 3 MemeTracker データにおける代表的な情報拡散パターンと，SpikeM による学習結果. Fig. 3 Results of SpikeM fitting on six patterns from MemeTracker dataset.. c 2013 Information Processing Society of Japan . 16.

(7) 情報処理学会論文誌. Vol.6 No.5 11–22 (Dec. 2013). データベース. 図 4. Twitter データにおける 3 つのハッシュタグの拡散と，SpikeM の結果. Fig. 4 Results of SpikeM fitting on three hashtags from Twitter dataset.. SpikeM と既存手法である SI モデルを比較した．2 章の. can” を利用しているのと同時に，Barack Obama の選挙. 図 2 で比較したとおり，SI モデルはパワー則に基づく減. 活動におけるスローガンの意味としてこのフレーズをブ. 衰パターンを有しないため，正しくパターンを表現できな. ログ内でポストしているためと考えられる．加えて，時. い．一方，我々の提案モデルは高い精度で盛り上がりと減. 刻 n = 120 付近には外れ値が観測されるが，我々の手法. 衰の両パターンを正しく表現できることが分かる．. は情報拡散の本質をとらえることができるためノイズに頑健であり，局所的なノイズの影響を受けない．. 3.3 Q2：MemeTracker データとモデルの比較図 3 は MemeTracker データにおける提案モデルの学習結果（赤線）である．ここでは，K-SC で発見された 6 つの代表的なクラスタ（C1–C6）に類似するシーケンスを選び，. 3.4 Q3：その他のデータにおけるモデルの検証 3.4.1 Twitter データ上の情報拡散図 4 は，Twitter データのハッシュタグにおけるモデ. 学習結果を示した．表は各シーケンスに関連するフレーズ. ルの学習結果である．Twitter は MemeTracker データに. （meme）であり，これらのフレーズはすべて 2008 年におけ. 非常によく似た拡散パターンを持つことが分かる．ここ. るアメリカの政治ニュースに関連する内容である．各シー. では頻出する 3 つのハッシュタグについてのみ結果を. ケンスはそれぞれ線形スケール（上段），対数スケール（下. 示す：(a) #assange：このハッシュタグは WikiLeaks の. 段）で示している．提案手法である SpikeM は，パワー則. 創立者 Julian Assange に関するニュースの拡散過程であ. に基づく拡散パターンを柔軟に表現することができる．特. る．まず初めに少人数による言及があり，その後ピーク. に，図中の対数スケールにおいて，提案モデルは実データ. 時（2011/12/5）に向かって情報が伝搬しているのが分か. の減衰パターンを正しくとらえていることが確認できる．. る．(b) #stevejobs：Steve Jobs の死去（2011/10/5）直後. 以下では，各パターンについて詳細を考察する．. にニュースが発生し，急激にユーザに伝わると同時に，長い. • パターン C1，C2：潜在的なユーザの総数 N 500 は. 期間にわたって話題が広がっている．(c) #arresteddevel-. ほぼ同様であるが，パターン C2 は C1 よりも急激に情. opment：これは映画 “Arrested Development” に関する話. 報が拡散している（情報拡散の強さは β ∗ N = 1.4）．. 題である．明確な周期性がある．. • パターン C3：強い外部ショックと緩やかな減衰を持. 3.4.2 GoogleTrends データ上の情報拡散. ち，微かに周期性を帯びている．. 情報拡散のパターンは，Blog や Twitter をはじめとす. • パターン C4，C5：明確な周期性を持つ．パターン C5. るソーシャルネットワークだけではなく，Google 等の検. の “lipstick on a pig” は 6 つのシーケンスの中で潜在的. 索エンジン内のクエリにおいても観測される．図 5 は，. ユーザの総数が最も多い（N = 6259）．. GoogleTrends データにおける情報拡散パターンの例であ. • パターン C6：フレーズ “yes we can” は，全体的に一. る．図 5 (a) は外部からの強いショックが要因となり発生. 定数の周期的なノイズも観測できるが，それと同時に時. したイベントの例（2005 年に発生したインドネシアの大地. 刻 n = 40 付近に強い情報拡散パターンが発生している．. 震に関するニュース）である．一方，図 5 (b) は 2007 年に. これは，ブログユーザが日常的なフレーズとして “yes we. 公開されたハリーポッターの映画が，口コミ等によって広. c 2013 Information Processing Society of Japan . 17.

(8) 情報処理学会論文誌. データベース. Vol.6 No.5 11–22 (Dec. 2013). まっていく過程が示されている．図に示すとおり，2 つの. 拡散過程も予測することができる．これに関しては 4.1 節. 異なる性質を持つパターンを SpikeM は正しく表現して. で詳しく述べる．. いる．. 4. アプリケーション. 3.5 Q4：SPIKEM を用いた拡散過程の予測. これまで述べたように，提案手法である SpikeM では直. 上に示したとおり，SpikeM は様々な拡散パターンを表. 感的な意味を持つパラメータを推定することができる．本. 現することができる．これを利用することで，将来の拡. 章では，提案手法およびそれらのパラメータの活用方法に. 散過程を予測することができる．図 6 は，MemeTracker. ついて議論すると同時に，実用的なアプリケーション例と. データ（図 3 Meme #9，#13）を用いた予測結果である．. して代表的な 3 つについて紹介する．. まず初めに，時刻 n = 54 および n = 60 までのシーケンス（黒線）を用いてそれぞれモデルの学習を行う．その後学習. 4.1 “What-if ” シナリオと将来予測. したモデルを用いて以降 5 日間のパターン（赤線）を予測. 3.5 節においてすでに SpikeM の予測能力について紹介. した．提案モデルの精度を比較するため，既存手法である. したが，ここではさらに重要なアプリケーションとして，. AR（青線）の予測結果も示した．AR の係数は SpikeM. “what-if” シナリオにおける将来予測問題に取り組む．具. のパラメータ数と同様の 7 に設定した．図に示すとおり，. 体的には，3.5 節の予測問題がシーケンスのピーク時まで. AR が長期的な予測に失敗しているのに対し，提案手法. のパターンを用いて，その後の動きを予測していたのに対. は正しく将来の拡散過程を予測している．より具体的に. し，この “what-if” シナリオではピーク以前のダイナミク. は，2 つのシーケンスに対する SpikeM の予測時のエラー. スも予測する．これは容易に解決できる問題ではない．な. がそれぞれ RMSE = 9.26，8.93 だったのに対し，AR は. ぜなら，一般的な情報拡散過程では，非常に短い期間の間. RMSE = 13.98，14.19 となった．ここでさらに重要なこと. にピーク点に達してしまうからである．しかしこれが繰返. に，SpikeM は，上記のようなピーク時以降のパターンだ. しのあるイベントであればどうだろうか．この “what-if”. けではなく，イベントの発生直後からピーク時にかけての. シナリオでは，単体のイベントに対して予測をするのではなく，過去に起きたイベントの情報を用いることで，次のイベントの拡散過程を予測する．ここで，ハリーポッターの映画を例として考える．もしハリーポッターの映画の続編が近日公開されるとしたら，ソーシャルメディア上でどのように話題が盛り上がるかを事前に予測できるだろうか．図 7（GoogleTrends ）を用いて問題を定義する．まず，事前情報として，(a) 2009 年に発表された過去の映画 “Harry. 図 5 GoogleTrends データにおけるモデルの学習精度（赤線）. Potter and the Half-Blood Prince”（n = 185）の拡散パ. Fig. 5 SpikeM fitting on GoogleTrends dataset: the volume. ターンと (b) 次に発表予定となっている続編 2 つの公開日. of searches for the keyword (in black dots) and fitting results (in red lines). Note that the window size is per week.. 時（水色矢印で示される点，時刻 n = 255，289），(c) 公開日時以前 8∼2 週間前のアクセス数（水色線）が与えられるとする．ここでの目標は，これらの情報から続編 2 つの情報拡散過程を推定し，ピーク点を予測することである．. 4.1.1 解決法 SpikeM は，N の値からハリーポッターに興味を持つ. 図7. 映画ハリーポッター（GoogleTrends ）における情報拡散パターンの予測. 図 6. MemeTracker データにおける情報拡散過程の予測. Fig. 6 Results of tail-part forecasting on MemeTracker data.. c 2013 Information Processing Society of Japan . Fig. 7 Results of “what-if” forecasting for the Harry Potter series.. 18.

(9) 情報処理学会論文誌. データベース. Vol.6 No.5 11–22 (Dec. 2013). 図 8 GoogleTrends データにおける外れ値検出. Fig. 8 Outlier detection on GoogleTrends dataset.. 可能性のあるユーザの数を，β の値からこのイベントの影響力（口コミによる情報伝搬の強さ）を推定することができる．そこで本手法では，すべてのイベント（ハリーポッターシリーズ）の情報拡散過程においてこれらの潜在的な. 図 9. MemeTracker と Twitter データにおけるパラメータ（N ， β ∗ N ，Ps ）の分布の様子. Fig. 9 Reverse engineering: pdf of three parameters: N, β ∗ N, Ps over 1,000 memes/hashtags. (a) MemeTracker : total potential bloggers N 1, 000, and strength of. パラメータを共通化することを考え，それぞれのイベント. “first burst” β ∗ N 1.0. More than 90% of the memes. 間の違いは，外部ショックの強さ (nb , Sb ) のみであるとす. have clear daily periodicity with high activities around. る．以下で処理の流れを示す．. 6 pm (i.e., Ps 0). (b) Twitter : similar trends except. ( 1 ) まず初めのピーク点前後のパターン（黒線）を用いて. more spread in Ps , possibly, due to multiple time zone.. パラメータ θ を学習する．. ( 2 ) 学習した θ を固定したうえで，水色線（n = 250，280）で示す部分シーケンスを用い，2 つの新たなイベントに対する外部ショックの強さ (nb , Sb ) をイベントそれぞれに対し推定する．. ( 3 ) 固定したパラメータ θ と新たに推定した (nb , Sb ) を用い，シーケンスの予測を行う（赤線）．以上のような処理を用いることで，図 7 に示すとおり，本手法は 2 つの新たなパターンを予測するとともに，ピークの位置も正しく推定することに成功した．. 注目度等の直感的な意味を持つことである．この特長を利用することで，観測される拡散パターンから，本来のデータの振舞いを理解することができる．図 9 は，MemeTracker と Twitter の 2 つのデータセットから，SpikeM を用いてそれぞれ 1,000 以上の拡散パターンを学習し，各パラメータ（N ，β ∗ N ，Ps ）の分布を示したものである．以下では得られた知見について議論する．知見 1 あるイベントに興味を持つ潜在的なユーザ数 N は，両データにおいて主に N = 1, 000 − 2, 000 である．知見 2 イベント生成直後の影響力の強さは両データに. 4.2 外れ値検出 3 章で示したように，SpikeM は実データのパターンを高い精度で表現することができる．これを利用することで，外れ値検出問題を容易に実現することができる．より具体的には，時刻 n におけるデータと推定モデルの距離を対数スケールを用いて次式で計算する：δ(n) = log|X(n) − ΔB(n)|．この値 δ(n) が閾値を超える場合にその時刻 n を外れ値とする．図 8 は，図 5 (a) に示した津波のシーケンスを対数スケールでプロットしたものである．ここで，黒点はオリジナルの値，赤線は SpikeM のフィッティング結果を表す．図中において，いくつかの外れ値が確認できる．たとえば，(a) 3 月 29 日にこのイベントとは異なる別の地震が発生している．さらに，(b) 12 月 26 日（n = 52）に非常に大きなスパイクがあるが，これはこの大地震が発生したちょうど 1 年後の地震の記念日にあたる．. おいて，およそ β ∗ N 1.0 に分布している．上記の 2 つの知見は，MemeTracker と Twitter の両データにおいて情報拡散過程に共通の振舞いがあることを意味する．つまり，Blog と Twitter が類似したソーシャルアクティビティを持つことを示唆している．知見 3 両データにおいて，24 時間単位の周期的な活動が見られる．特に MemeTracker データの (a) 周期の位相は Ps = 0 であり，早朝の活動が小さく，夕方に活動が増加する一方で，Twitter データでは (b) 位相 Ps に幅がある．実験では，両データセットにおいて 90%以上のシーケンスに，1 日単位の周期性が見つかった．周期性に関する特徴として，Twitter データには様々な位相 Ps を持つシーケンスが観測された．これは，MemeTracker データがアメリカ国内のユーザであるのに対し，Twitter のユーザが様々なタイムゾーン（アメリカ，イギリス，オーストラリア，インド等）を使用しているためである．. 4.3 リバースエンジニアリング. 5. 関連研究. 提案モデルの最大の強みは，構成する各パラメータが，イベントに興味を持つユーザの潜在的な人数やニュースの. c 2013 Information Processing Society of Japan . 関連研究は以下の 3 つに分類される．. 19.

(10) 情報処理学会論文誌. データベース. Vol.6 No.5 11–22 (Dec. 2013). 5.1 時系列データ解析時系列データの解析に関する研究は様々な分野で進めら. や，より複雑なネットワーク構造を考慮したモデルについて検討していく予定である．. れている [4]．自己回帰モデル（AR: autoregressive model），線形動的システム（LDS: linear dynamical systems），カ. 参考文献. ルマンフィルタ（KF: Kalman filters）は代表的な技術で. [1]. あり，これらに基づく時系列の解析と予測手法が数多く提案されている [12], [23], [24], [25]．しかしこれらの技術はすべて線形という特徴を持つ．非線形のモデルにおいて. [2] [3]. は最近傍探索（NNS: nearest neighbor search）[5] や人工ニューラルネットワーク（ANN: artificial neural networks）. [4]. [41] を用いる手法が主流であり，予測モデルとしての表現能力は不十分である．時系列シーケンスを対象とした類似検索やパターン発見問題も様々な研究が行われているが [7], [8], [13], [15], [26], [28], [30], [31], [33], [36], [37], [40]，. [5] [6]. 時系列データのバースト性の発見とそのモデル化に着目していない．. [7]. 5.2 影響伝播. [8]. ソーシャルネットワーク上の情報伝播は，SI モデル（susceptible-infected model）に代表される感染症疫学モデル [1] と深い関係性がある．文献 [29] において，情報の. [9]. 減衰パターンがパワー則の性質を持つことが報告されている．より具体的には，ブログにおける単位時間あたりの. [10]. 情報の影響力は −1.5 のベキ指数に基づき減衰する性質を持つ．Barabasi は通信における応答時間の分布がベキ指. [11]. 数 −1 から −1.5 の間のパワー則に従うという性質を発見している [2]．ブログ，ソーシャルメディアの解析および. [12]. 情報の伝播とカスケードに関する研究は様々なものがあり [9], [10], [11], [14], [17], [19], [20], [34], [35], [39], [42]，. [13]. さらにその発展研究として，情報拡散の発起点を探す研究 [18], [38] も進められている．. 5.3 バースト検知時系列データを対象としたバースト検知は Kleinberg [16]，. [14]. [15]. Zhu ら [44]，Parikh ら [32] に代表される様々な手法が存在するが，これらはすべてネットワーク上のバーストを表現. [16]. するモデルではない．. [17]. 6. むすび. [18]. 本論文では，オンラインメディア上の情報拡散過程を表現するモデルとして，SpikeM について述べた．SpikeM. [19]. は既存の知見（K-SC，SI モデル）を一般化すると同時に，パワー則に基づく減衰パターンを含む，様々な実データ上. [20]. の情報拡散の振舞いを表現する．SpikeM は少ない数のパラメータで構成され，これらのパラメータの利用すること. [21]. により，‘what-if’ シナリオによる予測や，リバースエンジニアリング等の有用なアプリケーションを実現した．今後の課題として，外部ショックが複数箇所から発生する状況. c 2013 Information Processing Society of Japan . [22]. Anderson, R.M. and May, R.M.: Infectious Diseases of Humans, Oxford University Press (1991). Barabasi, A.L.: The Origin of Bursts and Heavy Tails in Human Dynamics, Nature, Vol.435 (2005). Bass, F.M.: A New Product Growth for Model Consumer Durables, Management Science, Vol.15, No.5, pp.215–227 (1969). Box, G.E., Jenkins, G.M. and Reinsel, G.C.: Time Series Analysis: Forecasting and Control, 3rd edition, Prentice Hall, Englewood Cliffs, NJ (1994). Chakrabarti, D. and Faloutsos, C.: F4: Large-scale Automated Forecasting Using Fractals, CIKM (2002). Crane, R. and Sornette, D.: Robust Dynamic Classes Revealed by Measuring the Response Function of a Social System, PNAS (2008). Faloutsos, C., Ranganathan, M. and Manolopoulos, Y.: Fast Subsequence Matching in Time-series Databases, SIGMOD, pp.419–429 (1994). Gilbert, A.C., Kotidis, Y., Muthukrishnan, S. and Strauss, M.: Surfing Wavelets on Streams: One-pass Summaries for Approximate Aggregate Queries, VLDB, pp.79–88 (2001). Goetz, M., Leskovec, J., McGlohon, M. and Faloutsos, C.: Modeling Blog Dynamics, ICWSM (2009). Gruhl, D., Liben-Nowell, D., Guha, R. and Tomkins, A.: Information Diffusion through Blogspace, SIGKDD Explor. Newsl., Vol.6, No.2, pp.43–52 (2004). Guha, R., Kumar, R., Raghavan, P. and Tomkins, A.: Propagation of Trust and Distrust, WWW, pp.403–412 (2004). Jain, A., Chang, E.Y. and Wang, Y.-F.: Adaptive Stream Resource Management Using Kalman Filters, SIGMOD, pp.11–22 (2004). Kahveci, T. and Singh, A.K.: An Efficient Index Structure for String Databases, Proc. VLDB, pp.351–360 (Sep. 2001). Kempe, D., Kleinberg, J. and Tardos, E.: Maximizing the Spread of Influence through a Social Network, KDD (2003). Keogh, E.J., Palpanas, T., Zordan, V.B., Gunopulos, D. and Cardle, M.: Indexing Large Human-motion Databases, VLDB, pp.780–791 (2004). Kleinberg, J.M.: Bursty and Hierarchical Structure in Streams, KDD, pp.91–101 (2002). Kumar, R., Mahdian, M. and McGlohon, M.: Dynamics of Conversations, SIGKDD, pp.553–562 (2010). Lappas, T., Terzi, E., Gunopulos, D. and Mannila, H.: Finding Effectors in Social Networks, KDD, pp.1059– 1068 (2010). Leskovec, J., Adamic, L.A. and Huberman, B.A.: The Dynamics of Viral Marketing, TWEB, Vol.1, No.1 (2007). Leskovec, J., Backstrom, L. and Kleinberg, J.M.: Memetracking and the Dynamics of the News Cycle, KDD, pp.497–506 (2009). Leskovec, J., McGlohon, M., Faloutsos, C., Glance, N.S. and Hurst, M.: Patterns of Cascading Behavior in Large Blog Graphs, SDM (2007). Levenberg, K.: A Method for the Solution of Certain. 20.

(11) 情報処理学会論文誌. [23]. [24]. [25] [26]. [27]. [28]. [29]. [30]. [31]. [32]. [33]. [34]. [35]. [36]. [37]. [38]. [39]. [40] [41]. [42]. データベース. Vol.6 No.5 11–22 (Dec. 2013). Non-linear Problems in Least Squares, Quarterly Journal of Applied Mathmatics, Vol.II, No.2, pp.164–168 (1944). Li, L., Liang, C.-J.M., Liu, J., Nath, S., Terzis, A. and Faloutsos, C.: Thermocast: A Cyber-physical Forecasting Model for Data Centers, KDD (2011). Li, L., McCann, J., Pollard, N. and Faloutsos, C.: Dynammo: Mining and Summarization of Coevolving Sequences with Missing Values, KDD (2009). Li, L. and Prakash, B.A.: Time Series Clustering: Complex is Simpler!, ICML (2011). Lin, J., Keogh, E.J., Lonardi, S., Lankford, J.P. and Nystrom, D.M.: Visually Mining and Monitoring Massive Time Series, KDD, pp.460–469 (2004). Matsubara, Y., Sakurai, Y., Prakash, B.A., Li, L. and Faloutsos, C.: Rise and Fall Patterns of Information Diffusion: Model and Implications, KDD, pp.6–14 (2012). Matsubara, Y., Sakurai, Y. and Yoshikawa, M.: Scalable Algorithms for Distribution Search, ICDM, pp.347–356 (2009). McGlohon, M., Leskovec, J., Faloutsos, C., Hurst, M. and Glance, N.: Finding Patterns in Blog Shapes and Blog Evolution, International Conference on Weblogs and Social Media, Boulder, Colo. (March 2007). Papadimitriou, S. and Yu, P.S.: Optimal Multi-scale Patterns in Time Series Streams, SIGMOD Conference, pp.647–658 (2006). Papapetrou, P., Athitsos, V., Potamias, M., Kollios, G. and Gunopulos, D.: Embedding-based Subsequence Matching in Time-series Databases, ACM Trans. Database Syst., Vol.36, No.3, p.17 (2011). Parikh, N. and Sundaresan, N.: Scalable and Near Realtime Burst Detection from Ecommerce Queries, KDD, pp.972–980 (2008). Patel, P., Keogh, E.J., Lin, J. and Lonardi, S.: Mining Motifs in Massive Time Series Databases, Proc. ICDM, pp.370–377 (2002). Prakash, B.A., Beutel, A., Rosenfeld, R. and Faloutsos, C.: Winner Takes All: Competing Viruses or Ideas on Fair-play Networks, WWW, pp.1037–1046 (2012). Prakash, B.A., Chakrabarti, D., Faloutsos, M., Valler, N. and Faloutsos, C.: Threshold Conditions for Arbitrary Cascade Models on Arbitrary Networks, ICDM (2011). Sakurai, Y., Faloutsos, C. and Yamamuro, M.: Stream Monitoring under the Time Warping Distance, Proc. 23rd International Conference on Data Engineering, ICDE 2007, April 15-20, 2007, The Marmara Hotel, Istanbul, Turkey, pp.1046–1055 (2007). Sakurai, Y., Papadimitriou, S. and Faloutsos, C.: BRAID: Stream Mining through Group Lag Correlations, SIGMOD Conference, Baltimore, MD, USA, pp.599–610 (2005). Shah, D. and Zaman, T.: Rumors in a Network: Who’s the Culprit?, IEEE Trans. Information Theory, Vol.57, No.8, pp.5163–5181 (2011). Tong, H., Prakash, B.A., Tsourakakis, C.E., Eliassi-Rad, T., Faloutsos, C. and Chau, D.H.: On the Vulnerability of Large Graphs, ICDM (2010). Vlachos, M., Kozat, S.S. and Yu, P.S.: Optimal Distance Bounds on Time-series Data, SDM, pp.109–120 (2009). Weigend, A.S. and Gerschenfeld, N.A.: Time Series Prediction: Forecasting the Future and Understanding the Past, Addison Wesley (1994). Yang, J. and Leskovec, J.: Modeling Information Diffusion in Implicit Networks, ICDM, pp.599–608 (2010).. c 2013 Information Processing Society of Japan . [43] [44]. Yang, J. and Leskovec, J.: Patterns of Temporal Variation in Online Media, WSDM, pp.177–186 (2011). Zhu, Y. and Shasha, D.: Efficient Elastic Burst Detection in Data Streams, KDD, pp.336–345 (2003).. 松原靖子 2006 年お茶の水女子大学理学部情報科学科卒業．2009 年同大学大学院人間文化創成科学研究科理学専攻博士前期課程修了．2012 年京都大学大学院情報学研究科社会情報学専攻博士後期課程修了．博士（工学）．2011∼2012 年カーネギーメロン大学客員研究員．データストリーム処理，大規模データマイニングに関する研究に従事．日本データベース学会会員．. 櫻井保志（正会員） 1991 年同志社大学工学部電気工学科卒業．1991 年日本電信電話（株）入社．1999 年奈良先端科学技術大学院大学情報科学研究科博士後期課程修了．博士（工学）．2004∼2005 年カーネギーメロン大学客員研究員．2013 年熊本大学大学院自然科学研究科教授．本会平成 18 年度長尾真記念特別賞，本会平成 16 年度および平成 19 年度論文賞，電子情報通信学会平成 19 年度論文賞，日本データベース学会上林奨励賞，ACM KDD best paper awards （2008，2010）等受賞．データマイニング，データストリーム処理，センサデータ処理，Web 情報解析技術の研究に従事．ACM，電子情報通信学会，日本データベース学会各会員．. 21.

(12) 情報処理学会論文誌. データベース. Vol.6 No.5 11–22 (Dec. 2013). B. Aditya Prakash. Christos Faloutsos. B. Aditya Prakash is an Assistant. Christos Faloutsos is a Professor at. Professor in the Computer Science. Carnegie Mellon University. He has. Department at Virginia Tech.. He. received the Presidential Young In-. graduated with a Ph.D. from the. vestigator Award by the National Sci-. Computer Science Department at. ence Foundation (1989), the Research. Carnegie Mellon University in 2012. Contributions Award in ICDM 2006,. and got his B.Tech. (in CS) from the Indian Institute of. the SIGKDD Innovations Award (2010), seventeen best. Technology (IIT)—Bombay in 2007. He has published. paper awards (including two ‘test of time’), and four. more than 25 refereed papers in major venues, holds two. teaching awards. He has served as a member of the ex-. U.S. patents, and has given two tutorials (VLDB 2012 and. ecutive committee of SIGKDD; he is an ACM Fellow; he. ECML/PKDD 2012). His work has received one best pa-. has published over 200 refereed articles, 11 book chapters,. per award and two best-of-conference selections (CIKM. and one monograph. He holds five patents and he has. 2012, ICDM 2012, ICDM 2011). His interests include. given over 30 tutorials and over 10 invited distinguished. Data Mining, Applied Machine Learning, and Databases,. lectures. His research interests include data mining for. with emphasis on large real-world networks and time se-. graphs and streams, fractals, database performance, and. ries.. indexing for multimedia and bioinformatics data.. Lei Li. （担当編集委員比戸将平）. Lei Li is a Post-Doctoral researcher at EECS department of UC Berkeley and visiting researcher at CMU. His research interest lies in the intersection of machine learning, statistical inference and database systems. Specifically, he has been working on Bayesian inference in open universe probabilistic models, probabilistic programming language, large-scale learning, time series, communication and social networks. He received his B.S. in Computer Science and Engineering from Shanghai Jiao Tong University in 2006 and Ph.D. in Computer Science from Carnegie Mellon University in 2011, respectively. His dissertation work on fast algorithms for mining coevolving time series was awarded ACM KDD best dissertation (runner up).. c 2013 Information Processing Society of Japan . 22.

(13)

情報拡散過程のダイナミクス： 非線形モデルの提案と情報予測

情報拡散過程のダイナミクス：非線形モデルの提案と情報予測