DEIM Forum 2016 G1-5
リアルタイムなソーシャルメディア分析システムの
データバースト時のストリーム処理制御と性能評価
榎 美紀
†‡吉田 一星
†小口 正人
‡†日本アイ・ビー・エム(株) 東京基礎研究所
‡お茶の水女子大学理学部情報科学科 〒112-8610 東京都文京区大塚 2-1-1
E-mail: †[email protected]
あらまし Twitter に代表されるマイクロブログサービスでは,リアルタイムにメッセージが多く発信されそれら が多くのユーザーに再共有されて情報が拡散すると,その拡散規模や内容によっては,現実社会に与えるインパク トも大きい.それゆえ,ソーシャルメディア上で今何が広く拡散しているのか,を知ることは,企業や団体にとっ て重要である.本論文では,情報拡散データをストリームデータとして処理してリアルタイムに分析するためのシ ステムのフレームワークを紹介する.ソーシャルメディアデータの特性のひとつに,データのバースト性がある. 定期的に発信されるセンサーデータ等と異なり,時間や現実社会での出来事の影響を受けて,ストリームの量が変 化することが多々ある.そのような場合,普段稼動しているシステムの処理能力が追いつかずに,性能劣化を引き 起こす可能性がある.そこで本論文では,各ツイートのデータ分析における重要度を計算し,重要度が低いと判断 されたツイートをフィルタリングして処理するデータ量をコントロールする手法を提案する. キーワード ソーシャルメディア, 情報拡散,インメモリデータベース, TwitterPerformance Evaluation of Real-time Query Processing
of Information Diffusion on Social Media
Miki ENOKI
†‡Issei YOSHIDA
†and Masato OGUCHI
‡†IBM Research - Tokyo
‡Ochanomizu University 2-1-1 Otsuka, Bunkyou-ku, Tokyo, 112-8610, JAPAN
E-mail: †[email protected]
1. は じ め に
Twitter の よ う な リ ア ル タ イ ム 性 の 高 い ソ ー シ ャ ル メ デ ィ ア で は , 現 実 社 会 で 起 き た 災 害 や イ ベ ン ト に つ い て ユ ー ザ ー が 即 座 に 情 報 を 発 信 し た り , 逆 に , イ ン パ ク ト の あ る 情 報 が ソ ー シ ャ ル メ デ ィ ア 上 で 発 生 し て 現 実 社 会 に 影 響 を 及 ぼ す 現 象 も 多 く 発 生 す る [1].そ れ ゆ え , ソ ー シ ャ ル メ デ ィ ア 上 で 今 ど ん な 情 報 が 広 く 拡 散 し て い る の か , を リ ア ル タ イ ム に 知 る こ と は , 企 業 や 団 体 に と っ て 炎 上 防 止 や 流 行 把 握 の た め に 重 要 で あ る . こ れ ら は 現 状 で は , 人 手 で 人 海 戦 術 に よ る モ ニ タ リ ン グ を 実 施 す る か , あ ら か じ め 登 録 し た キ ー ワ ー ド の バ ー ス ト を 発 見 し て 異 常 検 知 す る 商 用 サ ー ビ ス を 利 用 す る こ と が 近 年 の 企 業 の ソ ー シ ャ ル メ デ ィ ア 活 用 の 傾 向 で あ る [2]. ソ ー シ ャ ル メ デ ィ ア の 情 報 を リ ア ル タ イ ム に 分 析 し て バ ー ス ト や イ ベ ン ト を 検 知 す る 研 究 は 多 く 存 在 す る .Twitter の メ ッ セ ー ジ 内 容 を 解 析 し て 特 徴 的 な キ ー ワ ー ド を 抽 出 し , そ の 頻 度 の バ ー ス ト 性 に よ り , 今 何 が ト レ ン ド と な っ て い る か を モ ニ タ リ ン グ す る [3,4]. 位 置 情 報 や メ ッ セ ー ジ 内 容 を 分 析 し て , そ の キ ー ワ ー ド や ツ イ ー ト 発 信 場 所 の バ ー ス ト 性 に よ り , 今 ど ん な イ ベ ン ト が 発 生 し て い る か を 発 見 す る [5].こ れ ら の サ ー ビ ス や 研 究 は , 各 ツ イ ッ タ ー の メ ッ セ ー ジ に 出 現 す る「 キ ー ワ ー ド 」の 増 減 の 情 報 を 基 に し た 分 析 で あ る . 必 ず し も ツ イ ー ト 間 に は 繋 が り は な く , 同 じ キ ー ワ ー ド を 話 題 に し て い る と い う 状 態 を 分 析 対 象 に し て い る . 対 し て , 我 々 が 分 析 対 象 と す る の は , メ ッ セ ー ジ の 再 共 有 (リ ツ イ ー ト , RT)で 広 が っ て い く 情 報 拡 散 で あ る . あ る ツ イ ー ト が 多 数 の ユ ー ザ ー に RT さ れ て 広 く 拡 散 し た メ ッ セ ー ジ は ,多 く の ユ ー ザ ー が 興 味 を も ち , イ ン パ ク ト を 与 え た 情 報 で あ る と い え る . ま た , あ る ト ピ ッ ク に 関 す る 複 数 の ツ イ ー ト の 拡 散 デ ー タ を 対 象 に し て , そ れ ら の ツ イ ー ト を よ く RT し て い る ユ ー ザ ー 達 や ,逆 に よ く RT さ れ て い る ユ ー ザ ー 等 ,「 キ ー パー ソ ン 」を 見 つ け る こ と に よ り ,「 ど の よ う な ユ ー ザ ー が 興 味 を も っ て い る か 」「 誰 が 話 題 の 中 心 に な っ て い る か 」「 ど の よ う な ユ ー ザ ー 間 の 流 れ を 介 し て 情 報 が 拡 散 し て い る の か 」 と い う 事 を 発 見 で き る こ と が 期 待 さ れ る . 発 見 し た ユ ー ザ ー は ユ ー ザ ー プ ロ フ ァ イ リ ン グ な ど の 分 析 を 行 う こ と に よ り [6],人 と な り を 深 く 分 析 可 能 に な る . 我 々 は こ の よ う な 情 報 拡 散 デ ー タ の 分 析 を 実 現 す る た め の シ ス テ ム 構 築 を 目 的 と し て い る . ソ ー シ ャ ル メ デ ィ ア 上 で は , あ る ト ピ ッ ク が 瞬 間 的 に 大 き く 話 題 に な る と 多 く の ユ ー ザ ー が 一 斉 に ツ イ ー ト を 発 信 し , バ ー ス ト 的 な 状 態 を 起 こ す こ と が あ る . 例 え ば , 大 規 模 な 震 災 が 発 生 し た 瞬 間 や オ リ ン ピ ッ ク な ど の ス ポ ー ツ の 試 合 で 盛 り 上 が っ た 瞬 間 , 各 国 の 選 挙 投 票 日 な ど が あ げ ら れ る . そ の よ う な 場 合 , シ ス テ ム は 何 千 何 十 万 の メ ッ セ ー ジ を 同 時 に 処 理 す る こ と に な り , 普 段 稼 動 し て い る サ ー バ ー の キ ャ パ シ テ ィ の 限 界 に 達 し て 処 理 が 遅 延 し た り デ ー タ を 欠 損 し て し ま う よ う な 危 険 性 が 生 じ る . そ こ で 我 々 は , 各 ツ イ ー ト の 重 要 度 を 計 算 し , 重 要 度 が 低 い と 判 断 さ れ た ツ イ ー ト を フ ィ ル タ リ ン グ し て 処 理 す る デ ー タ 量 を コ ン ト ロ ー ル す る 手 法 を 提 案 す る . 実 際 に バ ー ス ト し た ツ イ ー ト デ ー タ を 用 い て , 本 手 法 の 有 効 性 を 確 認 す る .
2. 情 報 拡 散 分 析 シ ス テ ム
2.1. 情 報 拡 散 データ
あ る 一 つ の ツ イ ー ト に 対 し て , そ れ を RT し て い る リ ツ イ ー ト デ ー タ を 関 連 付 け て 蓄 積 し て い く と , 1 つ の 情 報 拡 散 デ ー タ と な る . RT を エ ッ ジ と し 、 RT し た ユ ー ザ ー と さ れ た ユ ー ザ ー を ノ ー ド と す る グ ラ フ 構 造 を 拡 散 ネ ッ ト ワ ー ク と 呼 ぶ . 拡 散 ネ ッ ト ワ ー ク を 可 視 化 す る と , 拡 散 の 規 模 や 拡 散 経 路 が 視 覚 的 に 捉 え ら れ て 直 感 的 に 理 解 し や す く な る . 図 1 拡 散 ネ ッ ト ワ ー ク Figure 1 Information diffusion network図 1 は オ リ ジ ナ ル の ツ イ ー ト を 発 信 し た ユ ー ザ ー (中 心 が 白 色 の ノ ー ド )と ,そ の ツ イ ー ト を RT し た ユ ー ザ ー (色 の 付 い た ノ ー ド )を ネ ッ ト ワ ー ク の ノ ー ド と し , エ ッ ジ は 情 報 の 流 れ を 表 し て い る . 例 え ば , ユ ー ザ ー @b が ユ ー ザ ー @a の ツ イ ー ト を RT し た 時 , @a の ノ ー ド か ら @b の ノ ー ド へ 向 か う エ ッ ジ が は ら れ る . つ ま り , 1 エ ッ ジ が 1 リ ツ イ ー ト に 該 当 す る .
2.2. 情 報 拡 散 分 析 システム概 要
本 研 究 の シ ス テ ム 構 成 を 図 2 に 示 す . Twitter か ら 発 信 さ れ る ツ イ ー ト を リ ア ル タ イ ム に 取 得 し , イ ン メ モ リ の デ ー タ ス ト ア に 一 時 的 に 格 納 す る .Twitter か ら 日 々 発 信 さ れ る ツ イ ー ト は 膨 大 な 量 で あ る た め , 拡 散 デ ー タ の 収 集 対 象 と す る ツ イ ー ト を フ ィ ル タ リ ン グ し て も 良 い . 例 え ば , 特 定 の ユ ー ザ ー が 発 信 す る ツ イ ー ト の 拡 散 や 特 定 の キ ー ワ ー ド が 含 ま れ る ツ イ ー ト の RT の み を 格 納 す る よ う に 指 定 す る . シ ス テ ム の デ ー タ ス ト ア に は , リ レ ー シ ョ ナ ル デ ー タ ベ ー ス ,グ ラ フ デ ー タ ベ ー ス や キ ー /バ リ ュ ー ス ト ア が 候 補 と し て あ げ ら れ る [7,8]. 分 析 ユ ー ザ ー が 人 気 の リ ツ イ ー ト や ユ ー ザ ー を 発 見 す る た め に は 集 約 や ソ ー ト の 処 理 が 必 要 で あ り , キ ー /バ リ ュ ー ス ト ア よ り も , SQL を 用 い て 複 雑 な ク エ リ が 実 行 で き る リ レ ー シ ョ ナ ル デ ー タ ベ ー ス の ほ う が 分 析 の 幅 が 広 が る と 考 え る た め , 本 研 究 で は イ ン メ モ リ デ ー タ ベ ー ス を 採 用 す る . 一 方 で , デ ー タ ス ト ア に 格 納 し た 場 合 , サ ー バ ー の メ モ リ サ イ ズ に は 限 り が あ る た め , 延 々 と 蓄 積 し 続 け る こ と は 現 実 的 で は な い . ま た , す っ か り RT さ れ な く な っ た 鮮 度 の 低 い 拡 散 デ ー タ な ど が 残 り 続 け て 分 析 対 象 に な っ て し ま う こ と が 懸 念 さ れ る . そ こ で , 各 ツ イ ー ト の RT の 拡 散 が 収 束 す る 時 点 を 推 定 し て , 今 も RT さ れ 続 け て い る ア ク テ ィ ブ な 拡 散 デ ー タ は デ ー タ ス ト ア に 出 来 る だ け 格 納 し 続 け , 拡 散 が 収 束 し た デ ー タ は デ ー タ ス ト ア か ら 退 避 す る よ う な メ ン テ ナ ン ス 処 理 を 実 施 す る [9].デ ー タ ス ト ア か ら 退 避 さ れ る こ と に な っ た 拡 散 デ ー タ は ,HDD の デ ー タ ベ ー ス に 格 納 し て , Historical デ ー タ を 対 象 と し た オ フ ラ イ ン の 分 析 に 利 用 す る か , そ の ま ま 破 棄 す る . 図 2 情 報 拡 散 分 析 シ ス テ ムFigure 2 Infomation diffusion analysis system ア プ リ ケ ー シ ョ ン サ ー バ ー に は , 拡 散 ネ ッ ト ワ ー ク を 分 析 す る た め の 複 数 の モ ジ ュ ー ル が 入 り , 分 析 ユ ー ザ ー は イ ン タ ラ ク テ ィ ブ に 分 析 を 実 施 す る . 例 え ば , 分 析 ユ ー ザ ー は 特 定 の ツ イ ー ト の 集 合 に 対 し て , 多 く Tweet DB Streaming (in memory)
Application server Data access Data store Data analysts insert to DB or clear data Real-time Offline Stream server Analysis modules Ranking Visualization
RT さ れ て い る 人 気 の ユ ー ザ ー や ツ イ ー ト を 発 見 す る . 定 期 的 に ク エ リ を 発 行 し て モ ニ タ リ ン グ 目 的 に 使 用 し た り , 分 析 ユ ー ザ ー が 指 定 し た ツ イ ー ト の 拡 散 ネ ッ ト ワ ー ク を 生 成 し , 可 視 化 す る こ と も 可 能 で あ る .
3. 代 表 的 な 問 合 せ パ タ ー ン
3.1. インメモリデータベース
デ ー タ ベ ー ス に は リ ツ イ ー ト の デ ー タ を 格 納 し て い く . イ ン メ モ リ の デ ー タ ベ ー ス の 実 装 は い く つ か 存 在 し , オ ー プ ン ソ ー ス の H2, Apache Derby や , 商 用 の TimesTen, solidDB な ど が あ る [10]. デ ー タ ベ ー ス に は , RETWEET テ ー ブ ル と , ORIGIN_TWEET テ ー ブ ル を 生 成 す る ( 図 3) . RETWEET テ ー ブ ル に は , RT の ツ イ ー ト の ID(TweetID) , オ リ ジ ナ ル ツ イ ー ト の ツ イ ー ト ID(RTID), RT を 発 信 し た ユ ー ザ ー 名 (Dst), RT 元 で あ る オ リ ジ ナ ル ツ イ ー ト を 発 信 し た ユ ー ザ ー 名 (Src),RT 発 信 時 刻 (Time), 使 用 言 語 (Lang), 位 置 情 報 (Location) 等 を 属 性 と し て 持 た せ る . 1 レ コ ー ド が 2.1 節 の 1 エ ッ ジ に 該 当 す る .図 3 拡 散 ネ ッ ト ワ ー ク デ ー タ ベ ー ス Figure 3 Diffusion network database
ORIGIN_TWEET に は ,ツ イ ー ト ID (TweetID),ツ イ ー ト 発 信 時 刻 (Time),発 信 ユ ー ザ ー 名 (User),ツ イ ー ト の メ ッ セ ー ジ (Msg), RT さ れ た 回 数 (RTcount)が あ る . RTcount は ,対 応 す る RT を 受 信 す る た び に カ ウ ン ト さ れ る .あ る RT の ,RT 元 と な る オ リ ジ ナ ル ツ イ ー ト の 情 報 を 取 得 し た い 場 合 は ,RETWEET テ ー ブ ル の RTID と , ORIGIN_TWEET テ ー ブ ル の TweetID を Join 結 合 し て 問 合 せ を 行 う .
3.2. 拡 散 分 析 のための問 合 せパターン
本 シ ス テ ム に て 拡 散 デ ー タ を 対 象 に し た 代 表 的 な 問 合 せ パ タ ー ン を 以 下 に 紹 介 す る . (Pattern1) 指 定 し た 拡 散 ネ ッ ト ワ ー ク を 取 得 す る 選 択 演 算 拡 散 ネ ッ ト ワ ー ク を 生 成 す る た め , 所 望 の 拡 散 デ ー タ を 問 合 せ る .こ れ に よ り ,「 ユ ー ザ ー 間 を ど の よ う な 経 路 で RT が 拡 散 し て い っ た の か ? 」 と い っ た よ う な 情 報 を 得 る こ と が で き る . ま た , 生 成 し た 拡 散 ネ ッ ト ワ ー ク は , ク ラ ス タ リ ン グ や 頻 出 経 路 発 見 な ど の ネ ッ ト ワ ー ク 分 析 に 応 用 す る こ と も 可 能 と な る . こ の 問 合 せ パ タ ー ン に 対 応 す る SQL は 以 下 の よ う な 選 択 演 算 と な る : [Query 1] SELECT Src, Dst FROM RETWEETWHERE RTID in (tweet ids)
イ ン プ ッ ト は ツ イ ー ト ID で あ り ,こ の ID は 分 析 モ ジ ュ ー ル に て 指 定 さ れ る か , も し く は デ ー タ ベ ー ス か ら 取 得 さ れ る . 例 え ば , デ ー タ ベ ー ス 内 の ORIGIN_TWEET テ ー ブ ル に 対 し て ,あ る ト ピ ッ ク を 表 す 特 定 の キ ー ワ ー ド が 含 ま れ る ツ イ ー ト の ツ イ ー ト ID リ ス ト を 取 得 し , そ の リ ス ト を Query 1 の イ ン プ ッ ト に す る こ と に よ り , そ の ト ピ ッ ク に 関 連 す る 拡 散 ネ ッ ト ワ ー ク を 取 得 す る . (Pattern2) 指 定 し た 拡 散 ネ ッ ト ワ ー ク の 集 約 演 算 拡 散 ネ ッ ト ワ ー ク の 何 ら か の 属 性 値 に 着 目 し た 集 約 演 算 で あ る .例 え ば ,RT 数 の 多 い 順 の ツ イ ー ト ラ ン キ ン グ を 問 合 せ る . こ の 問 合 せ パ タ ー ン に 対 応 す る SQL は 以 下 の よ う に な る : [Query2] SELECT * FROM ORIGIN_TWEET
WHERE TweetID in (tweet ids) ORDER BY RTcount DESC
FETCH FIRST 100 ROWS ONLY
WHERE 句 に て ツ イ ー ト ID を 指 定 し な い 場 合 は ,単 純 に 現 在 格 納 し て い る 拡 散 デ ー タ の 中 で , 最 も RT 数 の 多 い 上 位 100 件 が 出 力 さ れ る . ま た , RT さ れ た ユ ー ザ ー に 着 目 し て 集 約 し た 場 合 , RT さ れ た ,数 の 多 い 順 の ユ ー ザ ー ラ ン キ ン グ を 取 得 で き る .こ の 問 合 せ パ タ ー ン に 対 応 す る SQL は 以 下 の よ う に な る : [Query3] SELECT Src, count(Src) FROM RETWEET
WHERE RTID in (tweet ids) GROUP BY Src
ORDER BY count(Src) DESC FETCH FIRST 100 ROWS ONLY
Query 3 に て Src を 指 定 し た 場 合 は ,指 定 し た ツ イ ー ト の 集 合 の 中 で , 最 も RT さ れ た 総 数 の 多 い 順 の ユ ー ザ ー (= 拡 散 影 響 力 の 高 い ユ ー ザ ー )が 出 力 さ れ る . 一 ・・ u2 u1 Src ・・ u4 u2 Dst ・・ Time data Time data Time ・・ Ja Ja Lang ・・ GPS GPS Location TweetID RTID ・・ 100 1 ・・ 101 1 ・・ ・・ ・・ ・・ ・・ u2 u1 Src ・・ u4 u2 Dst ・・ Time data Time data Time ・・ Ja Ja Lang ・・ GPS GPS Location TweetID RTID ・・ 100 1 ・・ 101 1 ・・ ・・ ・・ ・・ RETWEET table ・・ message message Msg ・・ u5 u1 User ・・ Time data Time data Time ・・ 14 29 RTcount TweetID ・・ 1 ・・ 2 ・・ ・・ ・・ ・・ message message Msg ・・ u5 u1 User ・・ Time data Time data Time ・・ 14 29 RTcount TweetID ・・ 1 ・・ 2 ・・ ・・ ・・ ORIGIN_TWEET table
方 ,Dst を 指 定 し た 場 合 は ,指 定 し た ツ イ ー ト の 集 合 の 中 で , 最 も RT し て い た 総 数 の 多 い ユ ー ザ ー (=情 報 を RT し や す い ユ ー ザ ー )が 出 力 さ れ る . 他 に , 各 ツ イ ー ト を 発 信 し た ユ ー ザ ー の 居 住 地 の ラ ン キ ン グ や , ツ イ ー ト 文 中 の 語 句 の 頻 出 ラ ン キ ン グ な ど の 問 合 せ が 考 え ら れ る . ど の よ う な 問 合 せ が 必 要 か は , ト ピ ッ ク や 分 析 ユ ー ザ ー の 分 析 シ ナ リ オ に 依 存 す る . 以 上 の よ う な 問 合 せ は , イ ン メ モ リ デ ー タ ベ ー ス で 処 理 さ れ る た め デ ィ ス ク ベ ー ス の デ ー タ ベ ー ス よ り も デ ー タ 処 理 が 高 速 に な る こ と が 期 待 さ れ る . し か し な が ら , 予 め イ ン デ ッ ク ス を 張 っ た カ ラ ム に 対 す る シ ン プ ル な 問 合 せ は 高 速 に 処 理 可 能 で あ る が , ソ ー ト や Join, 副 問 合 せ 等 メ モ リ 上 で の デ ー タ 演 算 が 問 合 せ コ ス ト の 多 く を 占 め る よ う な 複 雑 な SQL に な る ほ ど ,処 理 能 力 が HDD の デ ー タ ベ ー ス と 同 程 度 ま で 下 が っ て し ま う 可 能 性 が あ る [11]. 本 シ ス テ ム の 場 合 ,Pattern2 の 問 合 せ 処 理 は ,ユ ー ザ ー 単 位 で の 集 約 , ソ ー ト の 処 理 等 が 必 要 に な る た め , や や 複 雑 な SQL と な る .
4. デ ー タ バ ー ス ト 時 の キ ャ パ シ テ ィ コ ン ト ロ
ー ル 手 法 の 提 案
4.1. データバースト時 に起 こる性 能 劣 化
ソ ー シ ャ ル メ デ ィ ア 上 で は , あ る ト ピ ッ ク が 瞬 間 的 に 大 き く 話 題 に な る と 多 く の ユ ー ザ ー が 一 斉 に ツ イ ー ト を 発 信 し , バ ー ス ト 的 な 状 態 を 起 こ す こ と が あ る . た と え ば , オ リ ン ピ ッ ク な ど の ス ポ ー ツ の 試 合 で 盛 り 上 が っ た 瞬 間 や , 大 規 模 な 震 災 が 発 生 し た 瞬 間 等 で あ る . そ の よ う な 場 合 , シ ス テ ム は 何 千 何 万 の ツ イ ー ト を 処 理 す る こ と に な り , サ ー バ ー の キ ャ パ シ テ ィ の 限 界 に 達 し て 処 理 し き れ な く な る 可 能 性 が 生 じ る . そ こ で 本 章 で は , 各 ツ イ ー ト の 重 要 度 を 計 算 し , 重 要 度 が 低 い と 判 断 さ れ た ツ イ ー ト を フ ィ ル タ リ ン グ し て 処 理 す る デ ー タ 量 を コ ン ト ロ ー ル す る 手 法 を 提 案 す る . 図 4 は 日 本 の 衆 議 院 議 員 選 挙 の 開 票 日 (2014 年 12 月 14 日 )か ら 翌 日 に か け て の 各 時 間 帯 の , 政 党 名 を 含 ん だ ツ イ ー ト ( 含 リ ツ イ ー ト ) の 発 信 数 を 示 し て い る . こ れ に よ り , 開 票 開 始 時 間 で あ る 14 日 の 20 時 に 大 き く ツ イ ー ト 数 が 跳 ね 上 が っ て い る こ と が 分 か る . こ の よ う に 瞬 間 的 な バ ー ス ト が 発 生 し た 時 , シ ス テ ム を 稼 動 し て い る サ ー バ ー の リ ソ ー ス 不 足 等 を 引 き 起 こ し て し ま う 可 能 性 が あ る . 図 4 ツ イ ー ト の バ ー ス ト Figure 4 Bursting of tweets図 5 は 各 時 間 帯 に お い て の , Query 2, 3 の 平 均 応 答 時 間 と ス ト リ ー ム サ ー バ ー の CPU 使 用 率 を を 示 し て い る .開 票 時 間 後 に 徐 々 に 応 答 時 間 は 長 く な り ,22 時 台 に は 約 3 秒 も か か っ て い る ( 詳 細 な 実 験 設 定 に つ い て は 次 章 に 述 べ る ). CPU 使 用 率 も 90%に ま で 到 達 し ,リ ソ ー ス が 限 界 近 く ま で 達 し て い る こ と が わ か る . 本 シ ス テ ム は , 分 析 ユ ー ザ ー か ら イ ン タ ラ ク テ ィ ブ に 問 合 せ 処 理 が 発 行 さ れ る こ と を 想 定 し て い る . し た が っ て , 問 合 せ 応 答 時 間 が 数 秒 を 要 す る と い う こ と は 性 能 上 で 問 題 で あ る . 図 5 各 ク エ リ の 問 合 せ 応 答 時 間 Figure 5 Response time of each query
4.2. データバースト時 のキャパシティコントロール手
法 の提 案
解 決 策 と し て , シ ス テ ム を 分 散 す る こ と が 考 え ら れ る が , デ ー タ が 分 散 す る こ と に な り , 分 散 問 合 せ 処 理 を 実 行 し な く て は な ら な ず , 問 合 せ 実 行 時 間 に 影 響 を 及 ぼ す 可 能 性 が あ り , ト レ ー ド オ フ と な る . 本 研 究 で は , 他 の 手 段 と し て , 分 析 に お い て あ ま り 重 要 で は ない デ ー タ を フ ィ ル タ リ ン グ す る こ と に よ り , 性 能 劣 化 を 回 避 す る 手 法 を 提 案 す る . 単 純 な 解 決 策 と し て は , 送 信 さ れ て く る ツ イ ー ト を ラ ン ダ ム に フ ィ ル タ リ ン グ し て , 処 理 可 能 な 量 の み を 扱 う よ う に す る と い う 方 法 が 考 え ら れ る . し か し な が ら こ の 場 合 , 各 ツ イ ー ト の リ ツ イ ー ト が ラ ン ダ ム フ ィ ル タ リ ン グ さ れ , 図 1 で 示 し た よ う な 拡 散 ネ ッ ト ワ ー ク の 経 路 が 分 断 さ れ て し ま う . 本 シ ス テ ム が 分 析 対 象 と す る の は , 拡 散 デ ー タ で あ る た め , こ の よ う に デ ー タ が 欠 損 し て し ま う こ と は 望 ま し く な い . ツ イ ー ト に は ,発 信 し た ユ ー ザ ー の ID, フ ォ ロ ー /フ ォ ロ ワ ー の ユ ー ザ ー 数 な ど , 様 々 な 情 報 が 含 ま れ て い る . そ こ で , ツ イ ー ト に 付 随 し て い る そ れ ら の 情 報 を 用 い て , ツ イ ー ト に 重 要 度 を 表 す 重 み 値 を 付 与 す る . 拡 散 デ ー タ を 分 析 す る に あ た り , 拡 散 数 が 大 き い ツ イ ー ト ほ ど イ ン パ ク ト の 大 き い ツ イ ー ト で あ り , 分 析 対 象 と す る 価 値 が 高 い と 考 え ら れ る た め , そ の よ う な ツ イ ー ト の 重 要 度 が 高 く な る よ う に し た い .し た が っ て , 拡 散 数 が 大 き く な り そ う な ツ イ ー ト と そ の リ ツ イ ー ト の デ ー タ は で き る だ け フ ィ ル タ リ ン グ せ ず に 残 す よ う に す る . 以 下 に ツ イ ー ト の 重 要 度 を 計 算 す る 式 を 表 す .
otherwise
t
o
getUserInf
retweet
is
t
if
t
o
getUserInf
t
Weight
ID RTID),
(
),
(
)
(
Weight(t)は ツ イ ー ト , も し く は リ ツ イ ー ト t の 重 要 度 を 示 す 重 み 値 で あ る . getUserInfo メ ソ ッ ド は , t に 付 随 す る 情 報 を イ ン プ ッ ト と し て , 重 み 値 を 返 す . 本 論 文 で は , ユ ー ザ ー の フ ォ ロ ワ ー の 数 を 返 す . こ れ は , フ ォ ロ ワ ー 数 が 多 い ユ ー ザ ー の ツ イ ー ト は RT さ れ る 頻 度 が 高 い と い う 仮 定 の も と に 設 定 し た . 送 信 さ れ て き た ツ イ ー ト が ツ イ ー ト の 場 合 は そ れ を 発 信 し た ユ ー ザ ー の フ ォ ロ ワ ー 数 を , リ ツ イ ー ト の 場 合 は , そ の オ リ ジ ナ ル ツ イ ー ト を 発 信 し た ユ ー ザ ー の フ ォ ロ ワ ー 数 を 参 照 し て い る . こ の 重 み 値 が あ る 閾 値 を 下 回 っ た 場 合 , フ ィ ル タ リ ン グ さ れ る . こ の 閾 値 を あ げ て , 多 く の ツ イ ー ト を フ ィ ル タ リ ン グ す る 程 , 分 析 結 果 の 精 度 を さ げ て し ま う 可 能 性 が 大 き く な る . こ れ は , キ ャ パ シ テ ィ の コ ン ト ロ ー ル と 分 析 結 果 の 精 度 の ト レ ー ド オ フ と な る .5. 実 験
Twitter の デ ー タ を 用 い て ,バ ー ス ト 時 の キ ャ パ シ テ ィ コ ン ト ロ ー ル の 手 法 の 効 果 を 評 価 す る .5.1. 実 験 シナリオ
4 章 で 提 案 し た , デ ー タ バ ー ス ト 時 の コ ン ト ロ ー ル 手 法 に つ い て の 評 価 を 行 う . 以 下 の 2 手 法 に て 実 験 結 果 を 比 較 す る . (手 法 a) Random Filtering 入 力 ツ イ ー ト を あ る 特 定 の レ ー ト で フ ィ ル タ リ ン グ を 行 う ナ イ ー ブ な 手 法 で あ る . 本 実 験 で は , 手 法 b の 閾 値 2000 の 時 の フ ィ ル タ リ ン グ 結 果 と 同 程 度 の 削 減 率 に な る よ う に ,フ ィ ル タ リ ン グ レ ー ト を 40%に 設 定 す る .こ れ に よ り ,手 法 b の 閾 値 2000 の 時 の 実 験 結 果 と 比 較 可 能 な 状 態 と な る . (手 法 b) Weight filtering (提 案 手 法 ) 重 み 値 と し て ユ ー ザ ー の フ ォ ロ ワ ー 数 を 用 い る . 閾 値 は 1000 ま た は 2000 に 設 定 す る . す な わ ち , ツ イ ー ト の 発 信 ユ ー ザ ー( RT の 場 合 は オ リ ジ ナ ル ツ イ ー ト の 発 信 ユ ー ザ ー ) の フ ォ ロ ワ ー 数 が 閾 値 よ り も 小 さ い 場 合 , そ の ツ イ ー ト は フ ィ ル タ リ ン グ さ れ る . 実 験 デ ー タ は , 2014 年 12 月 の 衆 議 院 議 員 選 挙 の 投 票 日 に , 政 党 名 を メ ッ セ ー ジ に 含 ん で い た 日 本 語 ツ イ ー ト を 用 い る . 該 当 日 の ツ イ ー ト 数 は 図 4 に 示 す 通 り で あ る . 実 験 に 用 い る マ シ ン は 2 x CPU Xeon X5670 (2.93GHz, 6 cores) with RAM 32 GB, OS は Red Hat Linux 5.5 を 使 用 し た .シ ス テ ム は Java (IBM J9 VM JRE 1.7.0 ) で 実 装 し た . デ ー タ ベ ー ス は , H2 v1.4.184 を イ ン メ モ リ モ ー ド で 使 用 し , RETWEET テ ー ブ ル と ORIGIN_TWEET テ ー ブ ル の , オ リ ジ ナ ル ツ イ ー ト の ID (TweetID, RTID)と , RETWEET テ ー ブ ル の , オ リ ジ ナ ル ツ イ ー ト を 発 信 し た ユ ー ザ ー (Src) に イ ン デ ッ ク ス を 張 っ て い る .5.2. バースト時 の問 合 せ性 能 評 価
RETWEET テ ー ブ ル と ORIGIN_TWEET テ ー ブ ル の レ コ ー ド 数 を 表 1 に 示 す . こ れ ら の テ ー ブ ル に は , 現 在 RT さ れ 続 け て い る ア ク テ ィ ブ な ツ イ ー ト の デ ー タ が 格 納 さ れ て い る [9].リ ツ イ ー ト さ れ な く な っ た 古 い デ ー タ は イ ン メ モ リ デ ー タ ベ ー ス か ら は 削 除 さ れ る . ど ち ら の テ ー ブ ル も 22 時 台 の レ コ ー ド 数 が 最 も 多 い . こ れ は 投 票 開 票 の 20 時 以 降 に ツ イ ー ト 数 が 急 増 し , そ れ ら の リ ツ イ ー ト が 依 然 活 発 に リ ツ イ ー ト さ れ て お り ,蓄 積 さ れ て い っ た 結 果 で あ る .手 法 b の 閾 値 1000 と 2000 で は ,RETWEET テ ー ブ ル の 約 70%と 60%ま で そ れ ぞ れ 総 レ コ ー ド 数 を 削 減 し て い る . 手 法 a は , 約 60%ま で 削 減 し て い る . 一 方 , ORIGIN_TWEET テ ー ブ ル で は , 手 法 b の 閾 値 1000 と 2000 に お い て ,そ れ ぞ れ 約 50%と 30%ま で 総 レ コ ー ド 数 を 削 減 し て い る . 手 法 a は 約 75%の 削 減 と な っ て お り ,手 法 b よ り も 削 減 数 が 少 な い .こ れ は , 手 法 b は , リ ツ イ ー ト の オ リ ジ ナ ル ツ イ ー ト を 発 信 し た ユ ー ザ ー の 重 み 値 が 閾 値 以 下 の リ ツ イ ー ト は す べ て フ ィ ル タ リ ン グ さ れ る た め , オ リ ジ ナ ル ツ イ ー ト の 総数 自 体 が 減 る た め で あ る . 手 法 a は , ラ ン ダ ム に リ ツ イ ー ト を フ ィ ル タ リ ン グ す る た め , オ リ ジ ナ ル ツ イ ー ト の 総 数 自 体 は 手 法 b ほ ど 削 減 し な か っ た と 考 え ら れ る .
表 1. 各 テ ー ブ ル の 総 レ コ ー ド 数 Table 1. Total number of records in each table
RETWEET 20:00 21:00 22:00 original 146,745 205,965 252,876 method (a) 88,049 (60%) 123,581 (60%) 151,727 (60%) method (b) user_1000 110,368 (75%) 149,830 (73%) 181,752 (72%) method (b) user_2000 91,763 (63%) 123,164 (60%) 149,043 (59%) ORIGIN_TWEET 20:00 21:00 22:00 original 28,542 36,747 43,699 method (a) 21,032 (74%) 27,193 (74%) 32,380 (74%) method (b) user_1000 14,530 (51%) 17,957 (49%) 20,928 (48%) method (b) user_2000 9,949 (35%) 12,060 (33%) 13,927 (32%) 問 合 せ 性 能 評 価 と し て , 3.2 節 で 紹 介 し た 問 合 せ パ タ ー ン で あ る , Query 2 と Query 3 の SQL を 用 い て 応 答 時 間 を 測 定 し た . 100 ユ ー ザ ー が 同 時 に こ れ ら の ク エ リ を 発 行 し て く る と 想 定 し て 測 定 す る . WHERE 句 で 指 定 す る ツ イ ー ト の ID は , 我 々 の 実 験 デ ー タ の 中 で ,“ 自 民 党 ”と い う キ ー ワ ー ド が 含 ま れ る ツ イ ー ト の ID の リ ス ト を セ ッ ト す る .こ れ は ,選 挙 に 関 す る リ ツ イ ー ト の デ ー タ を 対 象 に し て , 自 民 党 に 関 す る ツ イ ー ト の 中 で , ど の ツ イ ー ト が 最 も リ ツ イ ー ト さ れ て い た の か (Query 2),ど の ユ ー ザ ー が 最 も リ ツ イ ー ト さ れ た か (Query 3) の ラ ン キ ン グ 結 果 を 取 得 す る こ と に な る . 100 ユ ー ザ ー は , 20, 21, 22 時 台 の デ ー タ を 対 象 に Query 2 と Query 3 の SQL を そ れ ぞ れ 10 回 発 行 し , 平 均 応 答 時 間 を 計 算 す る . 図 6 は 各 時 間 帯 で の Query 2 の 応 答 時 間 の 中 央 値 を 示 し て い る . 全 手 法 に お い て , 22 時 台 の 応 答 時 間 が 最 も 長 い .こ れ は ,テ ー ブ ル の レ コ ー ド 数 が 22 時 台 が 最 も 多 い た め で あ る と 考 え ら れ る .手 法 b の 閾 値 1000 で は ,オ リ ジ ナ ル デ ー タ の 結 果 と 比 較 し て 約 50%ま で 削 減 さ れ て い る が ,依 然 と し て 22 時 台 は 1 秒 以 上 の 応 答 時 間 に な っ て い る .閾 値 2000 の 場 合 , 全 時 間 帯 に お い て 応 答 時 間 は 1 秒 以 下 に 削 減 で き て い る . 手 法 a で は , デ ー タ の 削 減 率 は 手 法 b の 閾 値 2000 と 同 じ だ っ た も の の ,応 答 時 間 は 長 く ,22 時 台 で は 約 2 秒 の 応 答 時 間 に な っ て し ま っ て い る .
問 合 せ 応 答 時 間 は ,Query 2, Query 3 の WHERE 句 で 指 定 さ れ る オ リ ジ ナ ル ツ イ ー ト の ID の 数 に 影 響 を う け る と 考 え ら れ る . 表 4.2 で 示 し た よ う に , 手 法 a で は ,ORIGIN_TWEET テ ー ブ ル の 総 レ コ ー ド 数 は 手 法 b よ り 削 減 で き て い な い た め に , よ り 長 い 応 答 時 間 の 結 果 と な っ た と 思 わ れ る . 図 6 Query 2 の 応 答 時 間 Figure 6 Response time of Query 2
図 7 Query 3 の 応 答 時 間 Figure 7 Response time of Query 3
Query 3 の 結 果 を , 図 7 に 示 す . 全 体 的 な 傾 向 は , Query 2 の 結 果 と 同 じ で あ る . 手 法 b の 閾 値 2000 の 結 果 だ け が , 全 時 間 帯 に お い て 応 答 時 間 を 1 秒 以 下 に 維 持 で き て い た . 図 8 は そ れ ぞ れ の Query を 実 行 し た と き の 平 均 CPU 使 用 率 を 示 し て い る ,オ リ ジ ナ ル デ ー タ で の 実 行 時 は , 最 高 で 80%以 上 の CPU を 消 費 し て い
る .フ ィ ル タ リ ン グ 適 用 後 は ,全 手 法 に お い て ,50%前 後 の 使 用 率 に ま で 下 げ る こ と が で き て い る . こ れ に よ り , フ ィ ル タ リ ン グ に よ り , デ ー タ バ ー ス ト 時 の リ ソ ー ス 消 費 を 抑 え る こ と が で き て い る こ と が わ か る .
図 8 各 Query 実 行 時 の CPU 使 用 率 Figure 8 CPU utilization when executing each query
5.3. 問 合 せ結 果 の精 度 の評 価
フ ィ ル タ リ ン グ の 手 法 を 適 用 す る こ と に よ り , デ ー タ 数 が 削 減 さ れ て 問 合 せ 性 能 が 改 善 さ れ た が ,一 方 で , フ ィ ル タ リ ン グ し た こ と に よ り , 問 合 せ 結 果 が オ リ ジ ナ ル の デ ー タ を 用 い た 時 と 異 な っ て し ま う 可 能 性 が あ る と い う ト レ ー ド オ フ が あ る . そ こ で , フ ィ ル タ リ ン グ 手 法 を 適 用 し た と き の Query 1, 2, 3 の 結 果 が , オ リ ジ ナ ル の デ ー タ を 用 い た と き の 結 果 と 比 較 し て , ど の 程 度 結 果 を 維 持 で き て い た か を 検 証 す る . 図 9 は , 各 ク エ リ で の , オ リ ジ ナ ル デ ー タ の 結 果 の カ バ ー 率 を 表 し て い る .100%の 場 合 は ,オ リ ジ ナ ル デ ー タ の 結 果 を そ の ま ま 再 現 で き た と い う こ と を 意 味 す る . Query 1 は , 指 定 し た ツ イ ー ト の ID の リ ツ イ ー ト デ ー タ を す べ て 取 得 す る 問 合 せ で あ る . す な わ ち , 指 定 し た ツ イ ー ト の 拡 散 ネ ッ ト ワ ー ク を 生 成 す る た め の 問 合 せ と な る . ツ イ ー ト の ID に は , Query 2 の 結 果 で あ る 総 リ ツ イ ー ト 数 ト ッ プ 100 件 の ID を 指 定 す る . Query 2, 3 は ,そ れ ぞ れ 総 リ ツ イ ー ト 数 ,ユ ー ザ ー 数 の ト ッ プ 100 件 の 結 果 を 返 す ラ ン キ ン グ 問 合 せ で あ る . し た が っ て , オ リ ジ ナ ル の ト ッ プ 100 の 結 果 の う ち , 何 件 を ト ッ プ 100 以 内 に 維 持 で き て い た か の 割 合 を 計 算 し て い る , 手 法 a で は ,Query 2 と Query 3 の 結 果 に お い て ,約 90%の 結 果 を 維 持 で き て い る . こ れ は , 手 法 a は ラ ン ダ ム に 均 一 に デ ー タ を 削 減 す る た め に , も と も と リ ツ イ ー ト 数 の 多 い ツ イ ー ト や ユ ー ザ ー は , 相 対 的 に 多 く 残 っ た た め と 考 え ら れ る . 一 方 , 手 法 b は , 手 法 a よ り も や や 低 い 結 果 と な っ て い る . こ の 要 因 の 一 つ と し て , フ ォ ロ ワ ー 数 が 少 な い ユ ー ザ ー が 発 信 し た ツ イ ー ト で も , フ ォ ロ ワ ー 数 の 多 い ユ ー ザ ー に リ ツ イ ー ト さ れ た こ と に よ り 多 く の ユ ー ザ ー が そ の ツ イ ー ト を 閲 覧 す る こ と に な り , ツ イ ー ト が 広 く 拡 散 し た 場 合 が あ る と 考 え ら れ る . 例 え ば , Query 3 の ユ ー ザ ー ラ ン キ ン グ の オ リ ジ ナ ル デ ー タ で の 12 位 の ユ ー ザ ー は ,フ ォ ロ ワ ー 数 が 610 で あ っ た .こ の ユ ー ザ ー は 手 法 b で は 閾 値 1000,2000 の い ず れ の 時 も フ ィ ル タ リ ン グ さ れ る 対 象 と な る た め , 手 法 b 適 用 後 の Query 3 の ラ ン キ ン グ 結 果 に は 現 れ な い . し か し な が ら , こ の ユ ー ザ ー は , フ ォ ロ ワ ー 数 が 30,498 の ユ ー ザ ー に リ ツ イ ー ト さ れ て い る . こ の 結 果 に よ り ,普 段 以 上 に リ ツ イ ー ト 数 が 増 え て ,12 位 に ラ ン キ ン グ し た の で は な い か と 考 え ら れ る . 手 法 b の カ バ ー 率 は , こ の よ う に リ ツ イ ー ト し た ユ ー ザ ー の 属 性 も 考 慮 す る と , よ り 改 善 で き る 可 能 性 が あ る . 現 時 点 で は , オ リ ジ ナ ル ツ イ ー ト を 発 信 し た ユ ー ザ ー の 属 性 し か 考 慮 し て い な い . 図 9 オ リ ジ ナ ル の 結 果 の カ バ ー 率 Figure 9 Coverage of the original result sQuery 1 の カ バ ー 率 は , WHERE 句 で 指 定 し た ID の 拡 散 ネ ッ ト ワ ー ク の エ ッ ジ 総 数 の う ち , 何 %を 維 持 で き た か を 意 味 す る .各 ツ イ ー ト の 拡 散 ネ ッ ト ワ ー ク は , 2.1 節 で 示 し た よ う に , {リ ツ イ ー ト さ れ た ユ ー ザ ー , リ ツ イ ー ト し た ユ ー ザ ー }を 1 エ ッ ジ と す る デ ー タ 構 造 と な っ て い る . 手 法 a は 約 40%の エ ッ ジ を 失 っ た 結 果 と な っ て い る .一 方 で 手 法 b は 閾 値 1000,2000 で そ れ ぞ れ 約 90%, 80%の カ バ ー 率 を 維 持 し て い る . 本 実 験 に お い て , バ ー ス ト 時 の キ ャ パ シ テ ィ コ ン ト ロ ー ル の た め , ユ ー ザ ー の 属 性 情 報 を 用 い て デ ー タ 数 を 制 御 す る こ と に よ る 効 果 を 示 し た .
6. 関 連 研 究
ソ ー シ ャ ル ネ ッ ト ワ ー ク 上 の 情 報 拡 散 の 分 析 に 関 す る 研 究 は 大 き く 三 種 類 に 分 類 さ れ る [12].一 つ 目 は , 流 行 の ト ピ ッ ク を 検 出 す る 研 究 で あ る . 例 え ば , TwitterMonitor[3]は キ ー ワ ー ド の バ ー ス ト を 発 見 し て , そ れ ら の キ ー ワ ー ド を グ ル ー プ 化 す る こ と に よ り , ト レ ン ド の ト ピ ッ ク を 抽 出 す る . 二 つ 目 は , 情 報 拡 散 のモ デ ル 化 で あ る . 例 え ば , リ ツ イ ー ト で 広 が る 時 間 経 過 の 拡 散 の 分 布 は , 主 に 対 数 正 規 分 布 に 従 う と さ れ て い る [13,14,15].こ れ ら の 知 見 に 基 づ き ,本 研 究 に お い て も , イ ン メ モ リ デ ー タ ス ト ア の , デ ー タ 格 納 メ ン テ ナ ン ス に 適 用 さ れ て い る [9]. 最 後 は , イ ン フ ル エ ン サ ー の 発 見 に 関 す る 研 究 で あ る . イ ン フ ル エ ン サ ー の 発 見 に は , 情 報 拡 散 ネ ッ ト ワ ー ク の 情 報 を 用 い て , ペ ー ジ ラ ン ク を 計 算 し た り , ネ ッ ト ワ ー ク の 中 心 に い る 人 物 を 発 見 す る も の が あ る [16]. こ れ ら の 関 連 研 究 は Twitter 上 で 情 報 拡 散 に 関 連 す る 分 析 を 行 っ て い る が , 分 析 ア ル ゴ リ ズ ム 等 を メ イ ン に し て お り , 問 合 せ 処 理 の 性 能 に 関 し て 言 及 し て い る も の で は な い . 我 々 は , こ れ ら の よ う な 分 析 に 必 要 な デ ー タ を 扱 う ミ ド ル ウ ェ ア の シ ス テ ム 構 築 と , デ ー タ ア ク セ ス の 最 適 化 を 目 指 し て い る . SONDY[17]は , ソ ー シ ャ ル ネ ッ ト ワ ー ク の デ ー タ を イ ン プ ッ ト と し て , ト ピ ッ ク 検 出 や , ペ ー ジ ラ ン ク の 計 算 な ど が 実 施 で き る . 独 自 の 分 析 も 追 加 で 組 み 込 む こ と が で き る . SONDY は リ ア ル タ イ ム な デ ー タ 処 理 を 対 象 に し て お ら ず , 本 研 究 と は デ ー タ の 扱 い が 異 な る . リ ア ル タ イ ム な 分 析 と し て は , Taxidou[18] ら の Twitter の 拡 散 分 析 が あ る .彼 ら の 目 的 は 拡 散 の 広 が り を リ ア ル タ イ ム に 推 定 し て ネ ッ ト ワ ー ク を 構 築 す る こ と で あ る .
7. ま と め と 今 後 の 課 題
本 論 文 に て ,Twitter の よ う な リ ア ル タ イ ム 性 の 高 い ソ ー シ ャ ル メ デ ィ ア の , 情 報 拡 散 デ ー タ を リ ア ル タ イ ム に 分 析 す る た め の シ ス テ ム の フ レ ー ム ワ ー ク を 構 築 し た . ソ ー シ ャ ル メ デ ィ ア に よ う な デ ー タ の 特 徴 の 一 つ に バ ー ス ト 性 が あ る . あ る ト ピ ッ ク が 瞬 間 的 に 大 き く 話 題 に な る と 多 く の ユ ー ザ ー が 一 斉 に ツ イ ー ト を 発 信 し , シ ス テ ム の リ ソ ー ス の 限 界 に 達 し て 性 能 劣 化 を 引 き 起 こ す 可 能 性 が あ る . そ こ で , 本 論 文 で は , 各 ツ イ ー ト に 付 随 す る 情 報 を 用 い て 重 要 度 を 計 算 し , 重 要 度 が 低 い と 判 断 さ れ た ツ イ ー ト を フ ィ ル タ リ ン グ し て 処 理 す る デ ー タ 量 を コ ン ト ロ ー ル す る 手 法 を 提 案 し た . 実 際 に バ ー ス ト し た ツ イ ー ト デ ー タ を 用 い て , 問 合 せ 性 能 を 評 価 し , 効 果 を 示 し た .参 考 文 献
[1] 企 業 を 襲 う イ ン タ ー ネ ッ ト の “ 炎 上 ” http://www.nhk.or.jp/ohayou/marugoto/2014/04/0416 .html [2] ソ ー シ ャ ル メ デ ィ ア 運 用 ・ 分 析 ・ 監 視 ツ ー ル http://dmc-navi.sendenkaigi.com/keyword/view/3[3] M. Mathioudakis and N. Koudas, “TwitterMonitor: trend detection over the twitter stream.” In Proceedings of the 2010 international conference on Management of data, pages 1155 –1158. ACM, 2010. [4] S. Asur, B. A. Huberman, G. Szabo, and C. Wang,
“Trends in social media - persistence and decay.” In 5th International AAAI Conference on Weblogs and Social Media, 2011.
[5] Lee, C.-H, “Mining spatio-temporal information on microblogging streams using a density-based online clustering method”, Expert Syst. Appl., Vol. 39, No. 10, pp. 9623-9641, 2012. [6] 那 須 川 哲 哉 ,西 山 莉 紗 , 金 山 博 ,吉 田 一 星 ,大 野 正 樹 , “ 一 人 称 所 有 格 を 用 い た プ ロ フ ィ ー ル 推 定 ” 言 語 処 理 学 会 第 19 回 年 次 大 会 , 2013 [7] HBase http://hbase.apache.org/ [8] Neo4j http://www.neo4j.org/
[9] Miki Enoki, Issei Yoshida and Masato Ogushi, “Performance of System for Analyzing Diffusion of Social Media Messages in Real Time”, IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2015 [10] イ ン メ モ リ デ ー タ ベ ー ス http://ja.wikipedia.org/wiki/%E3%82% A4%E3%83% B3%E3%83%A1%E3%83%A2%E3%83%AA%E3%8 3%87%E3%83%BC%E3%82%BF%E3%83%99%E3 %83%BC%E3%82%B9 [11] イ ン メ モ リ ー 時 代 の DB 構 築 http://coin.nikkeibp.co.jp/coin/sys_ranking10/img/sa mple3_2.pdf
[12] A. Guille, H. Hacid, C. Favre, and D. A. Zighed, “Information diffusion in online social networks: A survey,” SIGMOD Rec., vol. 42, no. 2,pp. 17–28, 2013.
[13] 松 澤 有 ,セ ー ヨ ー サ ン テ ィ , 鳥 海 不 二 夫 , 陳 昱 , “リ ツ イ ー ト 時 系 列 の 3 パ ラ メ ー タ 混 合 対 数 正 規 分 布 に よ る 分 析”, 人 工 知 能 学 会 全 国 大 会 , 2013 [14] Galuba, W., Chakraborty, D., Aberer, K, Despotovic,
Z., and Kellerer,W., “Outtweeting the Twitterers – Predicting Information Cascades in Microblogs. ”, In 3rd Workshop on Online Social Networks (WOSN ), 2010.
[15] Asur, S., Huberman, B. A., Szabo, G., and Wang, C., “Trends in social media: persistence and decay.” In Proceedings of the fifth International AAAI Conference on Weblogs and Social Media (ICWSM), 2011
[16] S. B. Seidman. Network structure and minimum degree. Social Networks, 5(3):269 –287, 1983. [17] A. Guille, C. Favre, H. Hacid, and D. Zighed.,
“Sondy: An open source platform for social dynamics mining and analysis.” In SIGMOD ’13, (demonstration) 2013.
[18] Taxidou I, Fischer PM, “Online analysis of information diffusion in twitter. ” In: WWW Companion, pp 1313–1318, 2014