This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere. Copyright ©2013 by IEICE
Twitter と論文との自動対応付け
中橋 光
†難波 英嗣
†竹澤 寿幸
†高須 淳宏
‡†広島市立大学大学院情報科学研究科 〒731-3194 広島県広島市安佐南区大塚東三丁目 4 番 1 号
‡国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2
E-mail: †{nakahashi, nanba, takezawa}@ls.info.hiroshima-cu.ac.jp, ‡takasu@nii.ac.jp
あらまし
近年,学術会議の参加者が論文(研究発表)に対するコメントを Twitter に投稿する機会が増えつつある.このよう なツイートは,多様な観点から論文を理解するのに有益であると考えられる.そこで,我々は,ツイートと学術論文の自動対応 付けの研究を行なっている.対応付けは 2 つのステップ,(1) 各ツイートと論文との対応付けおよび(2) ツイートの分類による 有益なツイートの検出から構成される.提案手法の有効性を確認するため実験を行った.実験の結果,ツイートと論文の対応付 けでは再現率 0.5080,精度 0.4853 を,ツイートの分類では,再現率 0.4533,精度 0.5782 を,それぞれ得た.キーワード Twitter,論文,DP マッチング,SVM
Automatic Alignment of Tweets with Research Papers
Hikaru NAKAHASHI
†Hidetsugu NANBA
‡Toshiyuki TAKEZAWA
‡and Atsuhiro TAKASU
‡†Graduate School of Information Sciences, Hiroshima City University
3-4-1 Ozuka-higashi, Asaminami-ku, Hiroshima 731-3194 Japan‡
National Institute of Informatics
Hitotsubashi 2-1-2, Chiyoda-ku, Tokyo, 101-8430 Japan
E-mail: †{nakahashi, nanba, takezawa}@ls.info.hiroshima-cu.ac.jp, ‡takasu@nii.ac.jp
Abstract Recently, participants of academic conferences often post their comments for each research paper (presentation)
to Twitter. Some of these comments are useful for understanding the papers from various viewpoints. Therefore, we have
studied automatic alignment of tweets with research papers. The procedure consists of the following two steps: (1) alignment
each tweet with a research paper and (2) classification of tweets for detecting useful ones. We conducted some experiments to
confirm the effectiveness of our method. From the results, we obtained recall and precision scores of 0.5080 and 0.4853,
respectively, for the alignment of tweets with research papers. We also obtained recall and precision scores of 0.4533 and
0.5782, respectively, for the classification of tweets.
Keyword Twitter, research paper, DP matching, S
VM1. は じ め に
論 文 中 で 先 行 す る 著 作 を 参 照 す る 習 慣 は ,19 世紀 に 確 立 し た と 言 わ れ て い る . 論 文 の 参 照 は 情 報 流 通 の ひ と つ の 形 態 で あ り , 参 照 論 文 を 分 析 す る こ と で , 論 文 間 の 結 び つ き を 見 出 し た り , 論 文 や 研 究 者 の 評 価 を 行 っ た り す る こ と は , 十 分 意 義 深 い こ と で あ る と 考 え ら れ る . 論 文 間 の 参 照 関 係 は こ れ ま で 様 々 な 目 的 に 利 用 さ れ て い る . そ の ひ と つ に , あ る 論 文 (被 参 照 論 文)を 参 照 す る 複 数 の 論 文 中 で 被 参 照 論 文 に つ い て 言 及 し た 個 所 (参 照 個 所 )を 抽 出 し ,ま と め る こ と で , 被 参 照 論 文 の 読 解 支 援 を す る ,と い う 試 み が あ る [1].しかし ,こ の 方 法 は , そ の 論 文 が 参 照 さ れ る ま で は 適 用 で き な い と い う 問 題 点 が あ る . そ こ で ,本 研 究 で は Twitter に着 目す る.Twitter は, 近 年 , 急 速 に 普 及 が 進 ん で い る コ ミ ュ ニ ケ ー シ ョ ン ツ ー ル で あ る .Twitter には,ユー ザの 日 常 生 活に 関する ツ イ ー ト だ け で な く , 学 会 等 で 発 表 さ れ た 論 文 へ の 意 見 や 疑 問 を 投 げ か け る ツ イ ー ト や 論 文 の 評 価 に 関 す る も 数 多 く 投 稿 さ れ て い る . 学 会 で 発 表 さ れ て い る 論 文 と こ の よ う な ツ イ ー ト を 対 応 付 け る こ と が で き れ ば , そ の 論 文 に 対 す る ユ ー ザ の 評 価 , 意 見 , 議 論 な ど 論 文 か ら だ け で は 得 る こ と が で き な い 多 様 な 情 報 を 得 る こ と が で き る と 考 え ら れ る . 本 研 究 で は 論 文 と ツ イ ー ト を 自 動 的 に 対 応 付 け る 手 法 を 提 案 す る .Twitter は リア ルタイ ム性 に優 れてい る た め ,学 会 終 了 直 後 に も 評 価 等 を 知 る こ と が で き る . こ こ で , ツ イ ー ト の 中 に は , 意 見 や 評 判 な ど 論 文 の 理 解 に 役 立 つ も の の 他 に ,発 表 の 様 子 を 実 況 中 継 し た り , 発 表 の 開 始 時 に 論 文 表 題 と 発 表 者 名 を ツ イ ー ト す る と い っ た , 論 文 理 解 に は あ ま り 貢 献 し な い も の も 存 在 する . そ こ で , 本 研 究 で は , ツ イ ー ト を い く つ か の タ イ プ に 自 動 分 類 し , 有 益 な ツ イ ー ト の 検 出 を 目 指 す . 本 論 文 の 構 成 は 以 下 の と お り で あ る . 2 節 では関 連 研 究 を 述 べ る . 3 節 では ,Twitter と論 文 の 自動 対応付 け と タ イ プ 分 類 に つ い て の 提 案 手 法 に つ い て 述 べ る .4 節 で は , 提 案 手 法 の 有 効 性 を 調 べ る た め に 行 っ た 実 験 に つ い て 述 べ ,5 節 で考察 を行 う .6 節 で結論 を述 べる .
2. 関 連 研 究
本 節 で は , 本 研 究 に 関 連 す る 研 究 に つ い て 述 べ る . ま ず , 対 応 付 け に 関 す る 研 究 に つ い て 述 べ る . 越 智 ら [2]は 学 会 で の 発 表 に 対 す る 聴 講 者 の レ ス ポ ン ス を 収 集 す る た め に , Twitter と 発表 スラ イド との 対応 付け を 行 っ て い る . そ し て , レ ス ポ ン ス の 収 集 の た め に , プ レ ゼ ン シ ス テ ム と モ バ イ ル シ ス テ ム を 開 発 し て い る . プ レ ゼ ン シ ス テ ム で は , 発 表 者 が ス ラ イ ド の ノ ー ト 情 報 を 管 理 サ ー バ に 送 信 す る こ と で , ス ラ イ ド の ノ ー ト 情 報 と ス ラ イ ド 画 像 の URL が Twitter に自 動投 稿され る . モ バ イ ル シ ス テ ム で は , 発 表 中 の ス ラ イ ド が 表 示 さ れ , ス ラ イ ド に 対 す る コ メ ン ト と レ ス ポ ン ス の 送 信 を 行 う こ と が で き る . こ の 2 つ のシス テム によ り ,ス ラ イ ド 情 報 の 送 信 と レ ス ポ ン ス の 収 集 を 行 う こ と が で き る . 発 表 論 文 の レ ス ポ ン ス 情 報 を 収 集 す る と い う 目 的 で は ,本 研 究 と 似 て い る が ,越 智 ら は Twitter を発表 ス ラ イ ド と 対 応 付 け て い る 点 で 本 研 究 と 異 な る . 坂 東 [3]は ,論文 の重要 度を 測る ために ,Twitter など の ソ ー シ ャ ル メ デ ィ ア と 論 文 と の 対 応 付 け を 行 っ て い る . 論 文 の 重 要 度 を 測 る 従 来 手 法 に は , 論 文 間 の 引 用 関 係 を 測 る 手 法 が あ る . 論 文 の 重 要 度 を 測 る 尺 度 と し て Garfield[4]の提 案し た イ ンパ クト・ ファ クタ が代表 的 で あ る .ま た ,Yogatama ら [5]は ,科 学界 の反 響の予 測 の た め に , 論 文 の 引 用 数 や ダ ウ ン ロ ー ド 数 を 用 い て 予 測 を 行 っ て い る . し か し , ど ち ら の 研 究 も , 引 用 関 係 を 調 べ る ま で に 時 間 を 要 す る と い う 問 題 点 が あ る . そ こ で 坂 東 は , 従 来 手 法 の 引 用 関 係 に 代 わ る 新 た な 手 法 と し て , Altmetric を提 案し てい る . Altmetric とは, ソ ー シ ャ ル メ デ ィ ア を 活 用 し て 研 究 成 果 の イ ン パ ク ト を 論 文 レ ベ ル で リ ア ル タ イ ム に 計 量 化 す る 新 た な 研 究 評 価 指 標 で あ る . し か し , 坂 東 の 研 究 で は , 論 文 に つ い て 言 及 し て い る ツ イ ー ト 数 が 示 さ れ て い る が , 論 文 へ の 評 価 極 性 に つ い て は 考 慮 さ れ て い な い . こ の 問 題 を 解 決 す る 手 法 の 一 つ と し て , 本 研 究 に お い て 対 応 付 け さ れ た 論 文 に 関 す る ツ イ ー ト を 分 析 す る 手 法 が 考 え ら れ る . こ の 手 法 で は , 論 文 に 対 し て 肯 定 的 な ツ イ ー ト と 否 定 的 な ツ イ ー ト を 分 類 で き , よ り 正 確 な 論 文 の 重 要 度 を 示 す こ と が で き る と 考 え ら れ る . 次 に , タ イ プ 分 類 に 関 す る 研 究 に つ い て 述 べ る . Twitter 上 に お い て 評 判 情 報 を 用 い た 研 究 と し て ,Long ら [6]の研 究が ある .Long らは ,Barbosa ら[7]の 評価辞 書 機 能 を 用 い て 評 価 極 性 の 判 定 を 行 っ て い る .そ し て , Long ら の 研 究 で は 評 価 対 象 の 拡 張 に 着 目 し て い る .例 え ば ,“Microsoft” に つ い て の 評 価 を 表 現 す る と き , “Microsoft” 自 体 に つ い て 評 価 す る の で は な く , “Microsoft technologies”の よう に,“Microsoft”に おける 対 象 の 何 か し ら の 要 素 に つ い て 言 及 す る こ と が 多 い . そ こ で , こ の 要 素 を 評 価 語 の 対 象 と し て 選 択 す る . 本 研 究 で も , こ の 評 判 情 報 を 用 い て ツ イ ー ト の タ イ プ 分 類 を 行 う . さ ら に 本 研 究 で は 、 手 掛 か り 語 も 使 用 す る こ と で 、 よ り 精 度 の 良 い 分 類 を 実 現 す る3. 提 案 手 法
本 節 で は ,Twitter と論 文と の自動 対応 付け とツイ ー ト の タ イ プ 分 類 に つ い て の 手 法 を 述 べ る . 本 研 究 の 流 れ と し て ,初 め に ,Twitter と論 文との 自 動 対 応 付 け を 行 う .Twitter と論 文を対 応付 ける 手法に つ い て は , 3.1 節 で説 明を 行う . 次 に , ツ イ ー ト に は 複 数 の タ イ プ が 存 在 す る た め , ツ イ ー ト の タ イ プ 分 類 を 行 う . タ イ プ 分 類 手 法 に つ い て は , 3.2 節で 述 べる .3.1. Twitter と論 文 との自動 対 応 付 け
本 節 で は , 学 会 の 発 表 論 文 に 関 す る ツ イ ー ト と 学 会 で 発 表 さ れ た 論 文 を 自 動 対 応 付 け す る 手 法 に つ い て 述 べ る . 提 案 手 法 の 流 れ を 以 下 に 示 す . ① ツ イ ー ト が 投 稿 さ れ た 時 間 と 論 文 の 発 表 時 間 を 用 い て ,ツ イ ー ト に 対 応 す る 論 文 の 候 補 を 選 定 す る . ツ イ ー ト は ,論 文 の 発 表 中 や 発 表 後 に 投 稿 さ れ る こ と が 多 い た め ,本 研 究 で は ツ イ ー ト の 投 稿 さ れ た 時 間 か ら 30 分 前ま でに 発表さ れ た 論 文 を 参 照 す る .②
対 象 の ツ イ ー ト と ① で 選 定 し た 論 文 間 の 類 似 度 を 算 出 す る . 類 似 性 尺 度 と し て ,DP マ ッチ ン グ と コ サ イ ン 類 似 度 を 用 い る . ③ ツ イ ー ト に 対 し て ① で 選 定 し た 論 文 の 中 か ら 類 似 度 が 最 も 高 い 論 文 を そ の ツ イ ー ト に 対 応 付 け る . 手 順 ② に お い て , ツ イ ー ト は 最 大 で 140 字 という 文 字 数 制 限 が あ る た め , 論 文 と の 類 似 度 を 測 る 際 , ツ イ ー ト か ら 得 ら れ る 情 報 量 が 少 な い た め , 正 確 な 類 似 度 が 測 れ な い と い う 問 題 が あ る . ま た , 1 つの論 文発 表 に 対 し て , 複 数 回 ツ イ ー ト す る ユ ー ザ が 存 在 す る 場 合 が あ る . そ こ で 本 研 究 で は , 類 似 度 を 測 る 時 に 用 い る ツ イ ー ト か ら ,前 後 20 分に 投稿 された 同一 の ユ ーザの ツ イ ー ト を 追 加 し て 類 似 度 を 測 る 手 法 を 行 う . 本 研 究 で は , こ の 手 法 を 「 ユ ー ザ 情 報 あ り 」 と 呼 ぶ . 以 下 に , 本 研 究 で 用 い る DP マ ッチ ングと コサ イン 類 似 度 に つ い て 述 べ る . DP マ ッ チ ン グ DP マ ッ チ ン グ は ,動 的 計 画 法 を 用 い て 2 つ の パ タ ーン の 要 素 間 の 整 列 化 を 行 い ,類 似 度 を 測 る 手 法 で あ る . 類 似 度 を 求 め る 際 に 重 み 付 け (以 下 , ペ ナ ル テ ィ)を 行 う . 2 つ のパタ ーン の要 素間に おけ る ペ ナルテ ィの 値 が 小 さ い ほ ど , よ り 類 似 し て い る と 判 断 し て い る . 本 研 究 で は ,DP マ ッチ ング の要素 とし て形 態素を 用 い る . 類 似 度 を 測 る 計 算 方 法 を 式 (1)に示 す. 文 の形態素数 文 の形態素 数 な お ,j は文 1,2 の形態 素の 一致 した 数であ る .本 研 究 で は , 文 1 は 論文 ,文 2 はツ イー トを 示す. コ サ イ ン 類 似 度 コ サ イ ン 類 似 度 と は , 2 つ のベク トル 間の 余弦の 値 を 利 用 す る 方 法 で あ る .1 に 近 け れ ば 類 似 し て い る こ と に な る . 2 つの ベク トル には , ツイ ート と論 文の単 語 を 用 い る .文 書 ベ ク ト ル の 重 み に は tf-idf を用 いる .
3.2. ツイートのタイプ分 類
本 節 で は , タ イ プ 分 類 の 手 法 に つ い て 述 べ る . 本 研 究 で は , タ イ プ 分 類 の 手 法 と し て , 機 械 学 習 に 基 づ く 手 法 を 提 案 す る . 本 研 究 の 手 順 と し て , 初 め に , 学 会 の 発 表 論 文 に 関 す る ツ イ ー ト を 人 手 に よ り タ イ プ 分 類 を 行 う .ツ イ ー ト の タ イ プ 分 類 に つ い て の 詳 細 は 3,2,1 節 で 述 べ る . そ の 後 収 集 し た ツ イ ー ト を 機 械 学 習 に よ り 学 会 に 関 す る ツ イ ー ト の タ イ プ の 自 動 分 類 を 行 う . ツ イ ー ト の タ イ プ の 自 動 分 類 に つ い て の 詳 細 は ,3.2.2 節 で 述 べ る .3.2.1. ツ イ ー ト の タ イ プ 分 類
本 研 究 で は 以 下 の 4 つ のタ イプに 分類 を行 う . 1. type S (Sentiment) 2. type B (Broadcast) 3. type D (Discussion) 4. type O (Other) 本 研 究 で は , 1 つ のツ イー トが複 数タ イプ を持つ 場 合 も あ る . そ れ ぞ れ の タ イ プ に つ い て 述 べ る . 1 : フ ォ ン ト と オ ノ マ ト ペ の 関 係 は 面 白 い な ぁ 図 1 : type S の ツイ ート 例 図 1 のよう に ,論 文に つい て「面 白い 」な ど評価 し て い る ツ イ ー ト を type S に 分類 する .この type S のツ イ ー ト の 評 価 極 性 を 分 析 す る こ と で , 論 文 に 対 す る ユ ー ザ の 評 価 を 調 べ る こ と が で き る . 1 : 「 ブ ロ グ を 中 心 と し た 観 光 情 報 の 組 織 化 」 旅 行 ブ ロ グ エ ン ト リ 中 に 含 ま れ る リ ン ク を 抽 出 す る 図 2 : type B のツイ ート 例 図 2 のよう に,発 表し てい る論文 につ いて 実況し て い る ツ イ ー ト を type B に 分類す る .type B には 論文の 内 容 に つ い て 実 況 し て い る ツ イ ー ト が 多 い . 図 2 の場 合 で も , 論 文 に 「 旅 行 ブ ロ グ エ ン ト リ か ら 観 光 情 報 リ ン ク を 抽 出 し 分 類 す る 手 法 を 提 案 す る 」 と い う 記 述 が あ り , 論 文 の 重 要 個 所 を 要 約 し て ツ イ ー ト し て い る . よ っ て , type B の ツイ ート を分 析する こと によ り 論文 の 重 要 個 所 を 容 易 に 知 る こ と が で き る . 1 : 「 ゆ っ た り 」「 ゆ っ く り 」み た い な 語 も オ ノ マ ト ペ な ん で す か ? 2 : @hijip 入 力 さ れ た オ ノ マ ト ペ は 母 音 と 子 音 に 分 解 さ れ て 数 値 化 さ れ る の で , ど ん な オ ノ マ ト ペ で あ っ て も イ ケ ま す ! 3 : 「 ゆ っ た り 」「 ゆ っ く り 」な ど は 宿 ホ テ ル へ の 評 価 に 含 ま れ る 特 徴 的 な 言 葉 な の で は な い か 4 : 関 係 し そ う 「 共 起 情 報 抽 出 に よ る 日 韓 オ ノ マ ト ペ の 意 味 差 の 分 析 に 向 け て 」 http://t. co/HsoGL4Xh 図 3 : type D のツ イート 例 図 3 の例 1 のよう に論 文に ついて 質問 して いるツ イ ー ト , 例 2 のよう に質 問に 対し て 応答 して いる ツイー ト ,例 3 のよ うに 論文 につい て提 案 し ている ツイ ート, 例 4 のよう に論文 につ いて 付加 情報を 示し てい るツイ ー ト を 議 論 し て い る ツ イ ー ト と し て type D に分 類する . 質 問 等 に 関 す る ツ イ ー ト を 分 析 す る こ と で , 学 会 で の 実 際 の 議 論 の 内 容 を 容 易 に 知 る こ と が で き る . 1 : RT @nanaya_sac オ ノ マ ト ペ 満 載 の あ の レ シ ピ 本 は 異 端 な の か . 2 : 徒 歩 15 分 の 仕 掛 学 セ ッ シ ョ ン に 来 た . 図 4 : type O のツ イート 例 図 4 のよう に ,学 会の 発表 論文に 関係 のな いツイ ー ト や リ ツ イ ー ト を type O に分 類する .本研 究で は,リ ツ イ ー ト は ユ ー ザ 自 身 の ツ イ ー ト で は な い の で 省 く .3.2.2. 機 械 学 習 に よ る ツ イ ー ト の 自 動 分 類
本 研 究 で は 機 械 学 習 に よ り ツ イ ー ト タ イ プ の 自 動 分 類 を 行 う . 機 械 学 習 に 用 い た 素 性 を 以 下 に 述 べ る . 評 価 表 現 辞 書 評 価 表 現 辞 書 は ,鍛 治 ら [8]の大規 模な 評価 文コー パ ス に よ り 自 動 構 築 さ れ た も の で あ り , 形 容 詞 , 形 容 詞 句 と 評 価 極 性 値 の ペ ア が 約 10,000 組 登 録 さ れ て い る . 評 価 表 現 辞 書 に は , 図 1 の例 1 の 「面 白い 」など 論 文 の 評 価 に 用 い ら れ る 語 が 多 く 登 録 さ れ て い る . 本 研 究 で は , 論 文 の 評 価 に 関 す る ツ イ ー ト を 分 類 す る 際 の 手 が か り 語 と し て , 鍛 治 ら の 評 価 表 現 辞 書 を 用 い る . 手 が か り 語 本 研 究 で は , 手 が か り 語 リ ス ト 作 成 の た め に 加 藤 ら [9]の 研 究 で 用 い ら れ て い る 情 報 利 得 を 用 い た .本 研 究 で は , type S,type B,type D,type O の 4 つ の タ イ プ を ク ラ ス と し て 用 い る . t ype B は 実況 につい て の ツ イ ー ト な の で , type S の 評価語 のよ うな 特定の
言 語 的 特 徴 が な い た め 手 掛 か り 語 を 収 集 す る こ と は 困 難 で あ る . そ の た め 本 研 究 で は , type S と type D につ い て 情 報 利 得 の 値 を 求 め , 上 位 100 件 の単 語を 手掛か り 語 と す る . 収集 した 手掛 かり 語の ツ イー トで の出現 頻 度 を 素 性 と し て 用 い る . ツ イ ー ト と 論 文 の 類 似 度 type B で は , 図 2 の ツ イ ー ト 例 1 の よ う に 発 表 し て い る 論 文 の 内 容 と 類 似 し て い る ツ イ ー ト が 多 い . そ こ で , 論 文 と ツ イ ー ト の 類 似 度 を 素 性 と し て 用 い る . 類 似 性 尺 度 と し て DP マッチ ング を用 いた . 文 タ イ プ あ る 論 文 に 関 し て 意 見 を 述 べ る 際 , ツ イ ー ト の 文 末 に は 「 方 が い い 」 , 「 望 ま し い 」 な ど の 表 現 が 用 い ら れ る こ と が あ る . そ こ で 文 末 表 現 に 着 目 し て 決 定 さ れ る 文 タ イ プ [10]を 素 性 と し て 用 い る . リ ツ イ ー ト の 有 無 リ ツ イ ー ト と は ,Twitter に おいて 他の ユー ザのツ イ ー ト を 再 投 稿 す る こ と で あ る . 本 研 究 で は , リ ツ イ ー ト の 有 無 を 素 性 と し て 用 い る .
4. 実 験
本 節 で は , 3 節で 述べ た提 案手法 の有 効性 を調べ る た め の 実 験 に つ い て 述 べ る . 4.1 節で は , Twitter と論 文 と の 自 動 対 応 付 け に 用 い る デ ー タ , 評 価 方 法 , お よ び 実 験 結 果 に つ い て 述 べ る . 4.2 節では ,学会 の発表 論 文 に 関 す る ツ イ ー ト の タ イ プ 分 類 に 用 い る デ ー タ , 評 価 方 法 , お よ び 実 験 結 果 に つ い て 述 べ る .4.1. Twitter と論 文 との自 動 対 応 付 け
実 験 に 用 い る デ ー タ と 評 価 尺 度 Twitter を ハ ッ シ ュ タ グ ご と に ま と め ら れ て い る Togetter 1か ら 学 会 の 発 表 論 文 に つ い て の ツ イ ー ト を 収 集 し た .ハ ッ シ ュ タ グ と は ,#記号と ,半 角英 数字で 構 成 さ れ る 文 字 列 の こ と で あ る . ハ ッ シ ュ タ グ 付 き の ツ イ ー ト は , 検 索 画 面 な ど で 一 覧 で き , 同 じ イ ベ ン ト の 参 加 者 や 同 じ 興 味 を 持 つ 人 の 様 々 な ツ イ ー ト が 収 集 し や す く な る .収 集 し た 学 会 の 発 表 論 文 に 関 す る 2,269 件 の ツ イ ー ト デ ー タ の う ち , 4.2 節 で 述 べる タ イ プ分 類 に よ っ て , type O に 判定 され た学会 の発 表論 文とは 関 係 の な い ツ イ ー ト を 除 い た 全 783 件 と, 学会 で発表 さ れ た 全 134 件の 論文 デー タを 用いた .論 文デ ータの 詳 細 を 表 1 に示す . 表 1 : 論文デ ータ 学 会 名 デ ー タ 数 (件) 人 工 知 能 学 会 2012 51 第 3 回 楽天 開発シ ンポ ジウ ム 7 言 語 処 理 学 会 2012 29 地 理 情 報 シ ス テ ム 学 会 2011 47 1 http://togetter.com/ 評 価 尺 度 に は , 精 度 , 再 現 率 , F 値 を用 いた . 比 較 手 法 本 研 究 で は , 以 下 で 述 べ る 4 種類 の提 案手 法と 1 種 類 の 比 較 手 法 で 実 験 を 行 っ た . 提 案 手 法 ・ DP マッ チン グ(ユ ーザ 情報 な し) : 類 似性 尺度 に DP マッチン グを 用い て類似 度を 測る . ・ コ サ イ ン 類 似 度(ユ ーザ 情報 なし) : 類似 性尺度 に コ サ イ ン 類 似 度 を 用 い て 類 似 度 を 測 る . ・ DP マ ッ チ ング (ユー ザ 情 報 あり ) : 類 似 性 尺度 に DP マ ッ チ ン グ を 用 い , 類 似 度 を 測 る 際 , 類 似 度 を 測 る と き に 用 い る ツ イ ー ト か ら 20 分 前後に 投 稿 さ れ た ,同 一 の ユ ー ザ の ツ イ ー ト 情 報 を 用 い る . ・ コ サ イ ン 類 似 度(ユ ーザ 情報 あり) : 類似 性尺度 に コ サ イ ン 類 似 度 を 用 い , 類 似 度 を 測 る 際 ,類 似 度 を 測 る と き に 用 い る ツ イ ー ト か ら 20 分 前後に 投 稿 さ れ た ,同 一 の ユ ー ザ の ツ イ ー ト 情 報 を 用 い る . ベ ー ス ラ イ ン 手 法 ・ ベ ー ス ラ イ ン : ツ イ ー ト の 投 稿 時 間 と 論 文 の 発 表 時 間 を 用 い て ,ツ イ ー ト に 対 応 付 け る 論 文 の 候 補 を 選 定 す る .そ し て , 論 文 の 発 表 時 間 に あ る ツ イ ー ト に 対 し て 対 応 付 け を 行 う . 実 験 結 果 Twitter と 論 文 の 対 応 付 け の 実 験 結 果 を 表 2 に 示 す . 表 2 : 対応付 けの 実験 結果 精 度 (%) 再 現 率 (%) F 値 (%) DP マ ッ チ ン グ (ユ ー ザ 情 報 な し ) 49.46 46.69 48.04 コ サ イ ン 類 似 度 (ユ ー ザ 情 報 な し ) 41.04 39.21 40.10 DP マ ッ チ ン グ (ユ ー ザ 情 報 あ り ) 50.80 48.53 49.64 コ サ イ ン 類 似 度 (ユ ー ザ 情 報 あ り ) 44.12 42.15 43.11 ベ ー ス ラ イ ン 45.86 38.80 42.04 表 2 の結果 から, 比較 手法 と 比べ て , コサ イン類 似 度 (ユー ザ情 報なし )では 若干 低下し たが ,そ の他 では , 比 較 手 法 の F 値 より高 い値 を 得 た.特 に , DP(ユーザ 情 報 あ り )に おいて ,精 度 4.94 ポ イン ト , 再現 率 9.77 ポ イ ン ト ,F 値 7.60 ポ イン ト の 改善を 行う こと ができ た .4.2. ツ イ ー ト の タイプ分 類
実 験 に 用 い る デ ー タ Togetter か ら 収 集 し た 学 会 の 発 表 論 文 に 関 す る 2,269 件 の ツ イ ー ト デ ー タ を 用 い る . ツ イ ー ト デ ー タ の 詳 細 を 表 3 に示 す.表 3 : ツイー トデ ータ 学 会 名 ハ ッ シ ュ タ グ デ ー タ 数 (件) 人 工 知 能 学 会 2012 #jsai2012 702 第 3 回楽天 開発 シ ン ポ ジ ウ ム #rrds3 706 言 語 処 理 学 会 2012 #nlp2012 505 地 理 情 報 シ ス テ ム 学 会 2011 #jisa2011 356 次 に , 収 集 し た ツ イ ー ト デ ー タ を , 人 手 に よ り タ イ プ 分 類 し た 結 果 を 表 4 に示 す. 表 4 : ツイー ト の タイ プご との件 数 分 類 タ イ プ type S type B type D type O
デ ー タ 数 (件) 274 348 304 1486 機 械 学 習 と 評 価 尺 度 機 械 学 習 に は TinySVM を 用い た. 線形カ ーネ ルを 使 用 し , 2 分 割交差 検定 を行 った. 評価 尺度 には 精度, 再 現 率 , F 値 を用い る . 比 較 手 法 提 案 手 法 で は ,評 価 表 現 辞 書 ,type S の 手が かり語 , type D の 手 が か り 語 , 文 タ イ プ , ツ イ ー ト と 論 文 の 類 似 度 ,RT の有無,全単 語の 出現 頻度を 素性 とし て機械 学 習 を 行 う . ベ ー ス ラ イ ン で は , 全 単 語 の 出 現 頻 度 の み を 素 性 と し て 機 械 学 習 を 行 う . 実 験 結 果 ツ イ ー ト の タ イ プ 分 類 の 実 験 結 果 を 表 5 に 示す. 表 5 : ツイー トの タイ プ分 類の実 験結 果 タ イ プ 精 度 (%) 再 現 率 (%) F 値 (%) ベ ー ス ラ イ ン type S 60.04 47.02 52.74 type B 63.59 49.96 55.96 type D 51.06 34.83 41.41 平 均 58.23 43.93 50.04 提 案 手 法 type S 58.80 49.93 54.00 type B 61.32 50.71 55.51 type D 53.35 35.36 42.53 平 均 57.82 45.33 50.68 表 5 の結 果 から ,比 較手 法に比 べ, 全タ イプに おけ る 平 均 の F 値 が向上 した .type D にお いて は,精 度 2.29 ポ イ ン ト , 再 現 率 0.57 ポイン ト 向 上し た.
5. 考 察
5.1. Twitter と論 文 との自 動 対 応 付 け
次 に , 4.1 節 の 実 験 結 果 に つい て 考 察 す る . シス テ ム が 誤 っ て 抽 出 し た 例 と 抽 出 で き な か っ た 例 に つ い て 分 析 す る . シ ス テ ム が 誤 っ て 抽 出 し た 例 人 手 で は 対 応 付 け を 行 わ な か っ た が , シ ス テ ム で は 対 応 付 け し た 例 に つ い て 考 察 す る . 例 と し て , 類 似 度 を 測 る 際 , 同 じ ユ ー ザ の 情 報 を 追 加 し た 場 合 に つ い て 述 べ る . 図 5 に同 一ユ ーザ のツイ ート 例を 示す. 1 : ハ ッ シ ュ タ グ だ け で い い 結 果 が 出 た ら 元 も 子 も な い な w #rrds3 2010/12/18 14:12:08 2 : ブ ロ グ を 中 心 と し た 観 光 情 報 の 組 織 化 #rrds3 2010/12/18 14:12:59 3 : 旅 行 ブ ロ グ エ ン ト リ 中 の リ ン ク に 注 目 . #rrds3 2010/12/18 14:14:58 図 5 : 同一ユ ーザ のツ イー ト例 図 5 より,文 1 で は Twitter に関す る論 文に ついて 述 べ て い る の に 対 し , 文 2 と 3 で は,旅 行ブ ログ に関す る 論 文 に つ い て 述 べ て い る . 本 研 究 で は , 同 一 論 文 に つ い て 述 べ て い る ツ イ ー ト を 情 報 と し て 追 加 す る こ と を 目 的 に 同 一 ユ ー ザ の ツ イ ー ト の 追 加 を 行 っ た が , 別 の 論 文 に つ い て 述 べ て い る ツ イ ー ト が 追 加 さ れ て い る 例 が 存 在 し た . こ れ は , 図 5 の 例では ,旅 行ブ ログに 関 す る 論 文 の 発 表 が 14 時 10 分 頃に開 始さ れた が,前 の 論 文 発 表 に つ い て 言 及 し て い る ツ イ ー ト も ほ ぼ 同 時 刻 に 投 稿 さ れ た た め , 同 じ ユ ー ザ の ツ イ ー ト と し て シ ス テ ム が 追 加 し た と 考 え ら れ る . こ れ に よ り , 類 似 度 を 測 る と き に 用 い る ツ イ ー ト と は 別 の 論 文 に つ い て 言 及 し て い る ツ イ ー ト が 追 加 さ れ , シ ス テ ム が 誤 っ て 抽 出 し た と 考 え ら れ る . シ ス テ ム が 抽 出 で き な か っ た 例 次 に ,DP マッ チング を用 いた 際に ,人 手で は対応 付 け を 行 っ た が , シ ス テ ム で は 対 応 付 け を 行 わ な か っ た 例 に つ い て 考 察 す る . 論 文 と 類 似 度 を 比 較 す る と , 同 一 単 語 が 存 在 す る も の の 語 順 が 異 な る た め に , 対 応 付 け が 行 わ れ な か っ た 例 が 存 在 し た . シ ス テ ム が 対 応 付 け を 行 わ な か っ た ツ イ ー ト と 論 文 の 例 を 図 6 示す . [ツ イ ー ト ] 「 ゆ っ た り 」「 ゆ っ く り 」 み た い な 語 も オ ノ マ ト ペ な ん で す か ? [論 文 ] 図 3 の頻 度上 位のオ ノマ トペ 表現 は,大 別して「し っ か り 」の よ う に 事 物 や 行 為 の 描 写 に 用 い ら れ る 場 合 と ,「 ゆ っ く り 」 な ど の よ う に 記 述 者 の 気 持 ち の 記 述 に 用 い ら れ る 場 合 が あ る . 例 え ば 「 ゆ っ た り 」 で あ れ ば 「 ベ ッ ド 」 や 「 部 屋 」 な ど の 設 備 が「 ゆ っ た り し て い た 」と 用 い ら れ る こ と が よ く あ る . 図 6 : 対応付 けさ れな かっ た ツイ ート と論 文の例 図 6 のツイ ートと 論文 は, ともに 下線 部の 「ゆっ く り 」 や 「 ゆ っ た り 」 と い う 単 語 が 出 現 し て お り , 人 手 で は 類 似 し て い る と 判 断 し た .し か し ,DP マッ チング で は 語 順 を 考 慮 す る た め , 語 順 が 異 な る 場 合 , 類 似 度 が 小 さ く な る と い う 問 題 点 が あ る . そ の 解 決 策 と し て は , 類 似 度 を 測 る 際 , 複 数 の 類 似 性 尺 度 を 組 み 合 わ せて 行 う こ と で 解 決 で き る と 考 え ら れ る .
5.2. タイプ分 類
4.2 節 の 実 験 結 果 に つ い て 考 察 す る . シ ス テ ム が 誤 っ て 抽 出 し た 例 と 抽 出 で き な か っ た 例 に つ い て 分 析 す る . 例 と し て type S の場 合に ついて 考察 する . シ ス テ ム が 誤 っ て 抽 出 し た 例 人 手 で は 分 類 を 行 わ な か っ た が , シ ス テ ム で は 分 類 し た 例 に つ い て 考 察 す る . ツ イ ー ト の タ イ プ の 判 定 誤 り の 原 因 と し て , t ype S に おい て不要 な手 がか り語が 存 在 し た こ と が あ げ ら れ る . type S の 手 が か り 語 に は , 評 価 に 関 す る 語 が 多 く 存 在 す る .し か し ,情 報 利 得 に よ り 自 動 で 収 集 し た た め , 「 幸 せ 」「 え ら い 」と い っ た 論 文 の 評 価 と は 関 係 の な い 語 も 収 集 さ れ た . こ れ に よ り ,人 手 で は type S でない と 判 定 し た ツ イ ー ト が , シ ス テ ム で は 手 が か り 語 が 存 在 し た た め , type S と 判定 したと 考え られ る . シ ス テ ム に よ り 抽 出 で き な か っ た 例 次 に , 人 手 で は 分 類 を 行 っ た が , シ ス テ ム で は 分 類 を 行 わ な か っ た 例 に つ い て 考 察 す る . ツ イ ー ト の タ イ プ の 判 定 誤 り の 原 因 と し て , type S の 手が かり 語の不 足 が あ げ ら れ る . type S の 手 が か り 語 と し て ,「 素 晴 ら し い 」や「 面 白 い 」 と い っ た , 論 文 を 評 価 す る 際 に 用 い ら れ る 単 語 を 素 性 と し て 用 い た . し か し , ツ イ ー ト デ ー タ に よ っ て は ,同 じ「 素 晴 ら し い 」と い う 意 味 で も「 ス バ ラ シ イ 」 「 す ば ら し い 」 な ど 様 々 な 記 述 が 存 在 す る . 評 価 表 現 辞 書 で は ,「 す ば ら し い 」と「 ス バ ラ シ イ 」,「 素 晴 ら し い 」 は , 同 じ 単 語 の 代 表 の 表 現 で あ る 「 素 晴 ら し い 」 に 変 換 さ れ て い る た め ,「 素 晴 ら し い 」し か 登 録 さ れ て お ら ず ,情 報 利 得 に よ り 収 集 し た type S の 手が かり語 に お い て も ,「 ス バ ラ シ イ 」は 登 録 さ れ て い な い .こ れ に よ り , 同 じ 意 味 で も 表 記 の 違 う 単 語 は 評 価 語 と し て 扱 わ れ な か っ た た め ,抽 出 で き な か っ た と 考 え ら れ る .6. お わ り に
本 研 究 で は , Twitter と 学 会 の 発 表 論 文 を 用 い て , Twitter と 論 文 と の 自 動 対 応 付 け の 手 法 と ,学 会 に 関 す る ツ イ ー ト の タ イ プ を 自 動 分 類 す る 手 法 を 提 案 し た . Twitter と 論 文 と の 自 動 対 応 付 け で は ,類 似 度 に 基 づ く 手 法 を 提 案 し た . ま た , 類 似 度 を 測 る 際 , 同 一 ユ ー ザ の 情 報 を 追 加 し た 対 応 付 け も 行 っ た .実 験 の 結 果 ,DP マ ッ チ ン グ の ユ ー ザ 情 報 を 追 加 し た 場 合 で 比 較 手 法 に 比 べ て 精 度 が 4.94 ポ イント ,再 現率 が 9.77 ポ イント 向 上 し 提 案 手 法 の 有 効 性 を 示 し た . タ イ プ 分 類 で は , type S, type B, type D, type O の 4 つ の タ イ プ に , 機 械 学 習 を 用 い て 自 動 分 類 を 行 っ た . 実 験 の 結 果 , 提 案 手 法 が 比 較 手 法 に 比 べ て 結 果 が 向 上 し 提 案 手 法 の 有 効 性 を 示 す こ と が で き た .文 献
[1] V. Qazvinian, D. R. Radev, S.M. Mohammad, B. Dorr, D. Zajic, M. Whidby, T. Moon, “Generatin g Extractive Summaries of Scientific Paradigms” Journal of Artificial Intelligence Research, Vol.46, pp.165-201, 2013. [2] 越 智 洋 司 , 中 筋 浩 之 ,“プ レ ゼ ン テ ー シ ョ ン と 連 動 し た モ バ イ ル 型 レ ス ポ ン ス シ ス テ ム の 開 発” ARG-WI2, No.1, pp.11-14, 2012. [3] 坂 東 慶 太 ,“Altmetrics の 可 能 性 ソ ー シ ャ ル メ デ ィ ア を 活 用 し た 研 究 評 価 指 標” 情 報 管 理 , Vol.55, No.9, pp.638-646, 2012.
[4] E. Garfield, “Citation Indexes to Science : A New Dimension in Documentation Th ought the Association of Ideas” Science, No.122, pp. 108 -111, 1995.
[5] D. Yogatama, M. Heilman, B. O’Connor, C. Dyer, “Predicting a Scientific Community’s Response to an Article” Proceedings of EMNLP ’11, pp.594-604, 2011.
[6] J. Long, Y. Mo, Z. Ming, L. Xiaohua, Z. Tiejun, “Target-dependent Twitter Sentiment Classification, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics ” pp.151-160, 2011.
[7] L. Barbosa, J. Fenq, “Robust Sentiment Detection on Twitter from Biased and Noisy Data ” Proceedings of COLING ’10, pp.36-44, 2010.
[8] 鍜 治 伸 裕 , 喜 連 川 優 , “自 動 構 築 し た 評 価 文 コ ー パ ス か ら の 評 価 表 現 辞 書 の 構 築 ,”日 本 デ ー タ ベ ー ス 学 会 Letters, Vol.6, No.1, pp.41-44, 2007. [9] 加 藤 大 智 , NGUYENMANH CUONG , 橋 本 泰 一 , 横 田 治 夫 ,“ 論 文 の ラ ベ ル 付 き ク ラ ス タ リ ン グ の た め の 情 報 利 得 を 用 い た キ ー ワ ー ド 選 定” DEIM Forum 2012, E10-1, 2012. [10] 横 山 憲 司 , 難 波 英 嗣 , 奥 村 学 , “Support Vector Machine を 用 い た 談 話 構 造 解 析 ” 情 報 処 理 学 会 研 究 報 告 . 自 然 言 語 処 理 , 2003(23), pp.193-200, 2003.