• 検索結果がありません。

る. そこで, 本研究では, ツイートをいくつかのタイプに自動分類し, 有益なツイートの検出を目指す. 本論文の構成は以下のとおりである. 2 節では関連研究を述べる.3 節では,Twitter と論文の自動対応付けとタイプ分類についての提案手法について述べる.4 節では, 提案手法の有効性を調べる

N/A
N/A
Protected

Academic year: 2021

シェア "る. そこで, 本研究では, ツイートをいくつかのタイプに自動分類し, 有益なツイートの検出を目指す. 本論文の構成は以下のとおりである. 2 節では関連研究を述べる.3 節では,Twitter と論文の自動対応付けとタイプ分類についての提案手法について述べる.4 節では, 提案手法の有効性を調べる"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere. Copyright ©2013 by IEICE

Twitter と論文との自動対応付け

中橋 光

難波 英嗣

竹澤 寿幸

高須 淳宏

†広島市立大学大学院情報科学研究科 〒731-3194 広島県広島市安佐南区大塚東三丁目 4 番 1 号

‡国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2

E-mail: †{nakahashi, nanba, takezawa}@ls.info.hiroshima-cu.ac.jp, ‡takasu@nii.ac.jp

あらまし

近年,学術会議の参加者が論文(研究発表)に対するコメントを Twitter に投稿する機会が増えつつある.このよう なツイートは,多様な観点から論文を理解するのに有益であると考えられる.そこで,我々は,ツイートと学術論文の自動対応 付けの研究を行なっている.対応付けは 2 つのステップ,(1) 各ツイートと論文との対応付けおよび(2) ツイートの分類による 有益なツイートの検出から構成される.提案手法の有効性を確認するため実験を行った.実験の結果,ツイートと論文の対応付 けでは再現率 0.5080,精度 0.4853 を,ツイートの分類では,再現率 0.4533,精度 0.5782 を,それぞれ得た.

キーワード Twitter,論文,DP マッチング,SVM

Automatic Alignment of Tweets with Research Papers

Hikaru NAKAHASHI

Hidetsugu NANBA

Toshiyuki TAKEZAWA

and Atsuhiro TAKASU

†Graduate School of Information Sciences, Hiroshima City University

3-4-1 Ozuka-higashi, Asaminami-ku, Hiroshima 731-3194 Japan

National Institute of Informatics

Hitotsubashi 2-1-2, Chiyoda-ku, Tokyo, 101-8430 Japan

E-mail: †{nakahashi, nanba, takezawa}@ls.info.hiroshima-cu.ac.jp, ‡takasu@nii.ac.jp

Abstract Recently, participants of academic conferences often post their comments for each research paper (presentation)

to Twitter. Some of these comments are useful for understanding the papers from various viewpoints. Therefore, we have

studied automatic alignment of tweets with research papers. The procedure consists of the following two steps: (1) alignment

each tweet with a research paper and (2) classification of tweets for detecting useful ones. We conducted some experiments to

confirm the effectiveness of our method. From the results, we obtained recall and precision scores of 0.5080 and 0.4853,

respectively, for the alignment of tweets with research papers. We also obtained recall and precision scores of 0.4533 and

0.5782, respectively, for the classification of tweets.

Keyword Twitter, research paper, DP matching, S

VM

1. は じ め に

論 文 中 で 先 行 す る 著 作 を 参 照 す る 習 慣 は ,19 世紀 に 確 立 し た と 言 わ れ て い る . 論 文 の 参 照 は 情 報 流 通 の ひ と つ の 形 態 で あ り , 参 照 論 文 を 分 析 す る こ と で , 論 文 間 の 結 び つ き を 見 出 し た り , 論 文 や 研 究 者 の 評 価 を 行 っ た り す る こ と は , 十 分 意 義 深 い こ と で あ る と 考 え ら れ る . 論 文 間 の 参 照 関 係 は こ れ ま で 様 々 な 目 的 に 利 用 さ れ て い る . そ の ひ と つ に , あ る 論 文 (被 参 照 論 文)を 参 照 す る 複 数 の 論 文 中 で 被 参 照 論 文 に つ い て 言 及 し た 個 所 (参 照 個 所 )を 抽 出 し ,ま と め る こ と で , 被 参 照 論 文 の 読 解 支 援 を す る ,と い う 試 み が あ る [1].しかし ,こ の 方 法 は , そ の 論 文 が 参 照 さ れ る ま で は 適 用 で き な い と い う 問 題 点 が あ る . そ こ で ,本 研 究 で は Twitter に着 目す る.Twitter は, 近 年 , 急 速 に 普 及 が 進 ん で い る コ ミ ュ ニ ケ ー シ ョ ン ツ ー ル で あ る .Twitter には,ユー ザの 日 常 生 活に 関する ツ イ ー ト だ け で な く , 学 会 等 で 発 表 さ れ た 論 文 へ の 意 見 や 疑 問 を 投 げ か け る ツ イ ー ト や 論 文 の 評 価 に 関 す る も 数 多 く 投 稿 さ れ て い る . 学 会 で 発 表 さ れ て い る 論 文 と こ の よ う な ツ イ ー ト を 対 応 付 け る こ と が で き れ ば , そ の 論 文 に 対 す る ユ ー ザ の 評 価 , 意 見 , 議 論 な ど 論 文 か ら だ け で は 得 る こ と が で き な い 多 様 な 情 報 を 得 る こ と が で き る と 考 え ら れ る . 本 研 究 で は 論 文 と ツ イ ー ト を 自 動 的 に 対 応 付 け る 手 法 を 提 案 す る .Twitter は リア ルタイ ム性 に優 れてい る た め ,学 会 終 了 直 後 に も 評 価 等 を 知 る こ と が で き る . こ こ で , ツ イ ー ト の 中 に は , 意 見 や 評 判 な ど 論 文 の 理 解 に 役 立 つ も の の 他 に ,発 表 の 様 子 を 実 況 中 継 し た り , 発 表 の 開 始 時 に 論 文 表 題 と 発 表 者 名 を ツ イ ー ト す る と い っ た , 論 文 理 解 に は あ ま り 貢 献 し な い も の も 存 在 す

(2)

る . そ こ で , 本 研 究 で は , ツ イ ー ト を い く つ か の タ イ プ に 自 動 分 類 し , 有 益 な ツ イ ー ト の 検 出 を 目 指 す . 本 論 文 の 構 成 は 以 下 の と お り で あ る . 2 節 では関 連 研 究 を 述 べ る . 3 節 では ,Twitter と論 文 の 自動 対応付 け と タ イ プ 分 類 に つ い て の 提 案 手 法 に つ い て 述 べ る .4 節 で は , 提 案 手 法 の 有 効 性 を 調 べ る た め に 行 っ た 実 験 に つ い て 述 べ ,5 節 で考察 を行 う .6 節 で結論 を述 べる .

2. 関 連 研 究

本 節 で は , 本 研 究 に 関 連 す る 研 究 に つ い て 述 べ る . ま ず , 対 応 付 け に 関 す る 研 究 に つ い て 述 べ る . 越 智 ら [2]は 学 会 で の 発 表 に 対 す る 聴 講 者 の レ ス ポ ン ス を 収 集 す る た め に , Twitter と 発表 スラ イド との 対応 付け を 行 っ て い る . そ し て , レ ス ポ ン ス の 収 集 の た め に , プ レ ゼ ン シ ス テ ム と モ バ イ ル シ ス テ ム を 開 発 し て い る . プ レ ゼ ン シ ス テ ム で は , 発 表 者 が ス ラ イ ド の ノ ー ト 情 報 を 管 理 サ ー バ に 送 信 す る こ と で , ス ラ イ ド の ノ ー ト 情 報 と ス ラ イ ド 画 像 の URL が Twitter に自 動投 稿され る . モ バ イ ル シ ス テ ム で は , 発 表 中 の ス ラ イ ド が 表 示 さ れ , ス ラ イ ド に 対 す る コ メ ン ト と レ ス ポ ン ス の 送 信 を 行 う こ と が で き る . こ の 2 つ のシス テム によ り ,ス ラ イ ド 情 報 の 送 信 と レ ス ポ ン ス の 収 集 を 行 う こ と が で き る . 発 表 論 文 の レ ス ポ ン ス 情 報 を 収 集 す る と い う 目 的 で は ,本 研 究 と 似 て い る が ,越 智 ら は Twitter を発表 ス ラ イ ド と 対 応 付 け て い る 点 で 本 研 究 と 異 な る . 坂 東 [3]は ,論文 の重要 度を 測る ために ,Twitter など の ソ ー シ ャ ル メ デ ィ ア と 論 文 と の 対 応 付 け を 行 っ て い る . 論 文 の 重 要 度 を 測 る 従 来 手 法 に は , 論 文 間 の 引 用 関 係 を 測 る 手 法 が あ る . 論 文 の 重 要 度 を 測 る 尺 度 と し て Garfield[4]の提 案し た イ ンパ クト・ ファ クタ が代表 的 で あ る .ま た ,Yogatama ら [5]は ,科 学界 の反 響の予 測 の た め に , 論 文 の 引 用 数 や ダ ウ ン ロ ー ド 数 を 用 い て 予 測 を 行 っ て い る . し か し , ど ち ら の 研 究 も , 引 用 関 係 を 調 べ る ま で に 時 間 を 要 す る と い う 問 題 点 が あ る . そ こ で 坂 東 は , 従 来 手 法 の 引 用 関 係 に 代 わ る 新 た な 手 法 と し て , Altmetric を提 案し てい る . Altmetric とは, ソ ー シ ャ ル メ デ ィ ア を 活 用 し て 研 究 成 果 の イ ン パ ク ト を 論 文 レ ベ ル で リ ア ル タ イ ム に 計 量 化 す る 新 た な 研 究 評 価 指 標 で あ る . し か し , 坂 東 の 研 究 で は , 論 文 に つ い て 言 及 し て い る ツ イ ー ト 数 が 示 さ れ て い る が , 論 文 へ の 評 価 極 性 に つ い て は 考 慮 さ れ て い な い . こ の 問 題 を 解 決 す る 手 法 の 一 つ と し て , 本 研 究 に お い て 対 応 付 け さ れ た 論 文 に 関 す る ツ イ ー ト を 分 析 す る 手 法 が 考 え ら れ る . こ の 手 法 で は , 論 文 に 対 し て 肯 定 的 な ツ イ ー ト と 否 定 的 な ツ イ ー ト を 分 類 で き , よ り 正 確 な 論 文 の 重 要 度 を 示 す こ と が で き る と 考 え ら れ る . 次 に , タ イ プ 分 類 に 関 す る 研 究 に つ い て 述 べ る . Twitter 上 に お い て 評 判 情 報 を 用 い た 研 究 と し て ,Long ら [6]の研 究が ある .Long らは ,Barbosa ら[7]の 評価辞 書 機 能 を 用 い て 評 価 極 性 の 判 定 を 行 っ て い る .そ し て , Long ら の 研 究 で は 評 価 対 象 の 拡 張 に 着 目 し て い る .例 え ば ,“Microsoft” に つ い て の 評 価 を 表 現 す る と き , “Microsoft” 自 体 に つ い て 評 価 す る の で は な く , “Microsoft technologies”の よう に,“Microsoft”に おける 対 象 の 何 か し ら の 要 素 に つ い て 言 及 す る こ と が 多 い . そ こ で , こ の 要 素 を 評 価 語 の 対 象 と し て 選 択 す る . 本 研 究 で も , こ の 評 判 情 報 を 用 い て ツ イ ー ト の タ イ プ 分 類 を 行 う . さ ら に 本 研 究 で は 、 手 掛 か り 語 も 使 用 す る こ と で 、 よ り 精 度 の 良 い 分 類 を 実 現 す る

3. 提 案 手 法

本 節 で は ,Twitter と論 文と の自動 対応 付け とツイ ー ト の タ イ プ 分 類 に つ い て の 手 法 を 述 べ る . 本 研 究 の 流 れ と し て ,初 め に ,Twitter と論 文との 自 動 対 応 付 け を 行 う .Twitter と論 文を対 応付 ける 手法に つ い て は , 3.1 節 で説 明を 行う . 次 に , ツ イ ー ト に は 複 数 の タ イ プ が 存 在 す る た め , ツ イ ー ト の タ イ プ 分 類 を 行 う . タ イ プ 分 類 手 法 に つ い て は , 3.2 節で 述 べる .

3.1. Twitter と論 文 との自動 対 応 付 け

本 節 で は , 学 会 の 発 表 論 文 に 関 す る ツ イ ー ト と 学 会 で 発 表 さ れ た 論 文 を 自 動 対 応 付 け す る 手 法 に つ い て 述 べ る . 提 案 手 法 の 流 れ を 以 下 に 示 す . ① ツ イ ー ト が 投 稿 さ れ た 時 間 と 論 文 の 発 表 時 間 を 用 い て ,ツ イ ー ト に 対 応 す る 論 文 の 候 補 を 選 定 す る . ツ イ ー ト は ,論 文 の 発 表 中 や 発 表 後 に 投 稿 さ れ る こ と が 多 い た め ,本 研 究 で は ツ イ ー ト の 投 稿 さ れ た 時 間 か ら 30 分 前ま でに 発表さ れ た 論 文 を 参 照 す る .

対 象 の ツ イ ー ト と ① で 選 定 し た 論 文 間 の 類 似 度 を 算 出 す る . 類 似 性 尺 度 と し て ,DP マ ッチ ン グ と コ サ イ ン 類 似 度 を 用 い る . ③ ツ イ ー ト に 対 し て ① で 選 定 し た 論 文 の 中 か ら 類 似 度 が 最 も 高 い 論 文 を そ の ツ イ ー ト に 対 応 付 け る . 手 順 ② に お い て , ツ イ ー ト は 最 大 で 140 字 という 文 字 数 制 限 が あ る た め , 論 文 と の 類 似 度 を 測 る 際 , ツ イ ー ト か ら 得 ら れ る 情 報 量 が 少 な い た め , 正 確 な 類 似 度 が 測 れ な い と い う 問 題 が あ る . ま た , 1 つの論 文発 表 に 対 し て , 複 数 回 ツ イ ー ト す る ユ ー ザ が 存 在 す る 場 合 が あ る . そ こ で 本 研 究 で は , 類 似 度 を 測 る 時 に 用 い る ツ イ ー ト か ら ,前 後 20 分に 投稿 された 同一 の ユ ーザの ツ イ ー ト を 追 加 し て 類 似 度 を 測 る 手 法 を 行 う . 本 研 究 で は , こ の 手 法 を 「 ユ ー ザ 情 報 あ り 」 と 呼 ぶ . 以 下 に , 本 研 究 で 用 い る DP マ ッチ ングと コサ イン 類 似 度 に つ い て 述 べ る . DP マ ッ チ ン グ DP マ ッ チ ン グ は ,動 的 計 画 法 を 用 い て 2 つ の パ タ ー

(3)

ン の 要 素 間 の 整 列 化 を 行 い ,類 似 度 を 測 る 手 法 で あ る . 類 似 度 を 求 め る 際 に 重 み 付 け (以 下 , ペ ナ ル テ ィ)を 行 う . 2 つ のパタ ーン の要 素間に おけ る ペ ナルテ ィの 値 が 小 さ い ほ ど , よ り 類 似 し て い る と 判 断 し て い る . 本 研 究 で は ,DP マ ッチ ング の要素 とし て形 態素を 用 い る . 類 似 度 を 測 る 計 算 方 法 を 式 (1)に示 す. 文 の形態素数 文 の形態素 数 な お ,j は文 1,2 の形態 素の 一致 した 数であ る .本 研 究 で は , 文 1 は 論文 ,文 2 はツ イー トを 示す. コ サ イ ン 類 似 度 コ サ イ ン 類 似 度 と は , 2 つ のベク トル 間の 余弦の 値 を 利 用 す る 方 法 で あ る .1 に 近 け れ ば 類 似 し て い る こ と に な る . 2 つの ベク トル には , ツイ ート と論 文の単 語 を 用 い る .文 書 ベ ク ト ル の 重 み に は tf-idf を用 いる .

3.2. ツイートのタイプ分 類

本 節 で は , タ イ プ 分 類 の 手 法 に つ い て 述 べ る . 本 研 究 で は , タ イ プ 分 類 の 手 法 と し て , 機 械 学 習 に 基 づ く 手 法 を 提 案 す る . 本 研 究 の 手 順 と し て , 初 め に , 学 会 の 発 表 論 文 に 関 す る ツ イ ー ト を 人 手 に よ り タ イ プ 分 類 を 行 う .ツ イ ー ト の タ イ プ 分 類 に つ い て の 詳 細 は 3,2,1 節 で 述 べ る . そ の 後 収 集 し た ツ イ ー ト を 機 械 学 習 に よ り 学 会 に 関 す る ツ イ ー ト の タ イ プ の 自 動 分 類 を 行 う . ツ イ ー ト の タ イ プ の 自 動 分 類 に つ い て の 詳 細 は ,3.2.2 節 で 述 べ る .

3.2.1. ツ イ ー ト の タ イ プ 分 類

本 研 究 で は 以 下 の 4 つ のタ イプに 分類 を行 う . 1. type S (Sentiment) 2. type B (Broadcast) 3. type D (Discussion) 4. type O (Other) 本 研 究 で は , 1 つ のツ イー トが複 数タ イプ を持つ 場 合 も あ る . そ れ ぞ れ の タ イ プ に つ い て 述 べ る . 1 : フ ォ ン ト と オ ノ マ ト ペ の 関 係 は 面 白 い な ぁ 図 1 : type S の ツイ ート 例 図 1 のよう に ,論 文に つい て「面 白い 」な ど評価 し て い る ツ イ ー ト を type S に 分類 する .この type S のツ イ ー ト の 評 価 極 性 を 分 析 す る こ と で , 論 文 に 対 す る ユ ー ザ の 評 価 を 調 べ る こ と が で き る . 1 : 「 ブ ロ グ を 中 心 と し た 観 光 情 報 の 組 織 化 」 旅 行 ブ ロ グ エ ン ト リ 中 に 含 ま れ る リ ン ク を 抽 出 す る 図 2 : type B のツイ ート 例 図 2 のよう に,発 表し てい る論文 につ いて 実況し て い る ツ イ ー ト を type B に 分類す る .type B には 論文の 内 容 に つ い て 実 況 し て い る ツ イ ー ト が 多 い . 図 2 の場 合 で も , 論 文 に 「 旅 行 ブ ロ グ エ ン ト リ か ら 観 光 情 報 リ ン ク を 抽 出 し 分 類 す る 手 法 を 提 案 す る 」 と い う 記 述 が あ り , 論 文 の 重 要 個 所 を 要 約 し て ツ イ ー ト し て い る . よ っ て , type B の ツイ ート を分 析する こと によ り 論文 の 重 要 個 所 を 容 易 に 知 る こ と が で き る . 1 : 「 ゆ っ た り 」「 ゆ っ く り 」み た い な 語 も オ ノ マ ト ペ な ん で す か ? 2 : @hijip 入 力 さ れ た オ ノ マ ト ペ は 母 音 と 子 音 に 分 解 さ れ て 数 値 化 さ れ る の で , ど ん な オ ノ マ ト ペ で あ っ て も イ ケ ま す ! 3 : 「 ゆ っ た り 」「 ゆ っ く り 」な ど は 宿 ホ テ ル へ の 評 価 に 含 ま れ る 特 徴 的 な 言 葉 な の で は な い か 4 : 関 係 し そ う 「 共 起 情 報 抽 出 に よ る 日 韓 オ ノ マ ト ペ の 意 味 差 の 分 析 に 向 け て 」 http://t. co/HsoGL4Xh 図 3 : type D のツ イート 例 図 3 の例 1 のよう に論 文に ついて 質問 して いるツ イ ー ト , 例 2 のよう に質 問に 対し て 応答 して いる ツイー ト ,例 3 のよ うに 論文 につい て提 案 し ている ツイ ート, 例 4 のよう に論文 につ いて 付加 情報を 示し てい るツイ ー ト を 議 論 し て い る ツ イ ー ト と し て type D に分 類する . 質 問 等 に 関 す る ツ イ ー ト を 分 析 す る こ と で , 学 会 で の 実 際 の 議 論 の 内 容 を 容 易 に 知 る こ と が で き る . 1 : RT @nanaya_sac オ ノ マ ト ペ 満 載 の あ の レ シ ピ 本 は 異 端 な の か . 2 : 徒 歩 15 分 の 仕 掛 学 セ ッ シ ョ ン に 来 た . 図 4 : type O のツ イート 例 図 4 のよう に ,学 会の 発表 論文に 関係 のな いツイ ー ト や リ ツ イ ー ト を type O に分 類する .本研 究で は,リ ツ イ ー ト は ユ ー ザ 自 身 の ツ イ ー ト で は な い の で 省 く .

3.2.2. 機 械 学 習 に よ る ツ イ ー ト の 自 動 分 類

本 研 究 で は 機 械 学 習 に よ り ツ イ ー ト タ イ プ の 自 動 分 類 を 行 う . 機 械 学 習 に 用 い た 素 性 を 以 下 に 述 べ る . 評 価 表 現 辞 書 評 価 表 現 辞 書 は ,鍛 治 ら [8]の大規 模な 評価 文コー パ ス に よ り 自 動 構 築 さ れ た も の で あ り , 形 容 詞 , 形 容 詞 句 と 評 価 極 性 値 の ペ ア が 約 10,000 組 登 録 さ れ て い る . 評 価 表 現 辞 書 に は , 図 1 の例 1 の 「面 白い 」など 論 文 の 評 価 に 用 い ら れ る 語 が 多 く 登 録 さ れ て い る . 本 研 究 で は , 論 文 の 評 価 に 関 す る ツ イ ー ト を 分 類 す る 際 の 手 が か り 語 と し て , 鍛 治 ら の 評 価 表 現 辞 書 を 用 い る . 手 が か り 語 本 研 究 で は , 手 が か り 語 リ ス ト 作 成 の た め に 加 藤 ら [9]の 研 究 で 用 い ら れ て い る 情 報 利 得 を 用 い た .

本 研 究 で は , type S,type B,type D,type O の 4 つ の タ イ プ を ク ラ ス と し て 用 い る . t ype B は 実況 につい て の ツ イ ー ト な の で , type S の 評価語 のよ うな 特定の

(4)

言 語 的 特 徴 が な い た め 手 掛 か り 語 を 収 集 す る こ と は 困 難 で あ る . そ の た め 本 研 究 で は , type S と type D につ い て 情 報 利 得 の 値 を 求 め , 上 位 100 件 の単 語を 手掛か り 語 と す る . 収集 した 手掛 かり 語の ツ イー トで の出現 頻 度 を 素 性 と し て 用 い る . ツ イ ー ト と 論 文 の 類 似 度 type B で は , 図 2 の ツ イ ー ト 例 1 の よ う に 発 表 し て い る 論 文 の 内 容 と 類 似 し て い る ツ イ ー ト が 多 い . そ こ で , 論 文 と ツ イ ー ト の 類 似 度 を 素 性 と し て 用 い る . 類 似 性 尺 度 と し て DP マッチ ング を用 いた . 文 タ イ プ あ る 論 文 に 関 し て 意 見 を 述 べ る 際 , ツ イ ー ト の 文 末 に は 「 方 が い い 」 , 「 望 ま し い 」 な ど の 表 現 が 用 い ら れ る こ と が あ る . そ こ で 文 末 表 現 に 着 目 し て 決 定 さ れ る 文 タ イ プ [10]を 素 性 と し て 用 い る . リ ツ イ ー ト の 有 無 リ ツ イ ー ト と は ,Twitter に おいて 他の ユー ザのツ イ ー ト を 再 投 稿 す る こ と で あ る . 本 研 究 で は , リ ツ イ ー ト の 有 無 を 素 性 と し て 用 い る .

4. 実 験

本 節 で は , 3 節で 述べ た提 案手法 の有 効性 を調べ る た め の 実 験 に つ い て 述 べ る . 4.1 節で は , Twitter と論 文 と の 自 動 対 応 付 け に 用 い る デ ー タ , 評 価 方 法 , お よ び 実 験 結 果 に つ い て 述 べ る . 4.2 節では ,学会 の発表 論 文 に 関 す る ツ イ ー ト の タ イ プ 分 類 に 用 い る デ ー タ , 評 価 方 法 , お よ び 実 験 結 果 に つ い て 述 べ る .

4.1. Twitter と論 文 との自 動 対 応 付 け

実 験 に 用 い る デ ー タ と 評 価 尺 度 Twitter を ハ ッ シ ュ タ グ ご と に ま と め ら れ て い る Togetter 1か ら 学 会 の 発 表 論 文 に つ い て の ツ イ ー ト を 収 集 し た .ハ ッ シ ュ タ グ と は ,#記号と ,半 角英 数字で 構 成 さ れ る 文 字 列 の こ と で あ る . ハ ッ シ ュ タ グ 付 き の ツ イ ー ト は , 検 索 画 面 な ど で 一 覧 で き , 同 じ イ ベ ン ト の 参 加 者 や 同 じ 興 味 を 持 つ 人 の 様 々 な ツ イ ー ト が 収 集 し や す く な る .収 集 し た 学 会 の 発 表 論 文 に 関 す る 2,269 件 の ツ イ ー ト デ ー タ の う ち , 4.2 節 で 述 べる タ イ プ分 類 に よ っ て , type O に 判定 され た学会 の発 表論 文とは 関 係 の な い ツ イ ー ト を 除 い た 全 783 件 と, 学会 で発表 さ れ た 全 134 件の 論文 デー タを 用いた .論 文デ ータの 詳 細 を 表 1 に示す . 表 1 : 論文デ ータ 学 会 名 デ ー タ 数 (件) 人 工 知 能 学 会 2012 51 第 3 回 楽天 開発シ ンポ ジウ ム 7 言 語 処 理 学 会 2012 29 地 理 情 報 シ ス テ ム 学 会 2011 47 1 http://togetter.com/ 評 価 尺 度 に は , 精 度 , 再 現 率 , F 値 を用 いた . 比 較 手 法 本 研 究 で は , 以 下 で 述 べ る 4 種類 の提 案手 法と 1 種 類 の 比 較 手 法 で 実 験 を 行 っ た .  提 案 手 法 ・ DP マッ チン グ(ユ ーザ 情報 な し) : 類 似性 尺度 に DP マッチン グを 用い て類似 度を 測る . ・ コ サ イ ン 類 似 度(ユ ーザ 情報 なし) : 類似 性尺度 に コ サ イ ン 類 似 度 を 用 い て 類 似 度 を 測 る . ・ DP マ ッ チ ング (ユー ザ 情 報 あり ) : 類 似 性 尺度 に DP マ ッ チ ン グ を 用 い , 類 似 度 を 測 る 際 , 類 似 度 を 測 る と き に 用 い る ツ イ ー ト か ら 20 分 前後に 投 稿 さ れ た ,同 一 の ユ ー ザ の ツ イ ー ト 情 報 を 用 い る . ・ コ サ イ ン 類 似 度(ユ ーザ 情報 あり) : 類似 性尺度 に コ サ イ ン 類 似 度 を 用 い , 類 似 度 を 測 る 際 ,類 似 度 を 測 る と き に 用 い る ツ イ ー ト か ら 20 分 前後に 投 稿 さ れ た ,同 一 の ユ ー ザ の ツ イ ー ト 情 報 を 用 い る .  ベ ー ス ラ イ ン 手 法 ・ ベ ー ス ラ イ ン : ツ イ ー ト の 投 稿 時 間 と 論 文 の 発 表 時 間 を 用 い て ,ツ イ ー ト に 対 応 付 け る 論 文 の 候 補 を 選 定 す る .そ し て , 論 文 の 発 表 時 間 に あ る ツ イ ー ト に 対 し て 対 応 付 け を 行 う . 実 験 結 果 Twitter と 論 文 の 対 応 付 け の 実 験 結 果 を 表 2 に 示 す . 表 2 : 対応付 けの 実験 結果 精 度 (%) 再 現 率 (%) F 値 (%) DP マ ッ チ ン グ (ユ ー ザ 情 報 な し ) 49.46 46.69 48.04 コ サ イ ン 類 似 度 (ユ ー ザ 情 報 な し ) 41.04 39.21 40.10 DP マ ッ チ ン グ (ユ ー ザ 情 報 あ り ) 50.80 48.53 49.64 コ サ イ ン 類 似 度 (ユ ー ザ 情 報 あ り ) 44.12 42.15 43.11 ベ ー ス ラ イ ン 45.86 38.80 42.04 表 2 の結果 から, 比較 手法 と 比べ て , コサ イン類 似 度 (ユー ザ情 報なし )では 若干 低下し たが ,そ の他 では , 比 較 手 法 の F 値 より高 い値 を 得 た.特 に , DP(ユーザ 情 報 あ り )に おいて ,精 度 4.94 ポ イン ト , 再現 率 9.77 ポ イ ン ト ,F 値 7.60 ポ イン ト の 改善を 行う こと ができ た .

4.2. ツ イ ー ト の タイプ分 類

実 験 に 用 い る デ ー タ Togetter か ら 収 集 し た 学 会 の 発 表 論 文 に 関 す る 2,269 件 の ツ イ ー ト デ ー タ を 用 い る . ツ イ ー ト デ ー タ の 詳 細 を 表 3 に示 す.

(5)

表 3 : ツイー トデ ータ 学 会 名 ハ ッ シ ュ タ グ デ ー タ 数 (件) 人 工 知 能 学 会 2012 #jsai2012 702 第 3 回楽天 開発 シ ン ポ ジ ウ ム #rrds3 706 言 語 処 理 学 会 2012 #nlp2012 505 地 理 情 報 シ ス テ ム 学 会 2011 #jisa2011 356 次 に , 収 集 し た ツ イ ー ト デ ー タ を , 人 手 に よ り タ イ プ 分 類 し た 結 果 を 表 4 に示 す. 表 4 : ツイー ト の タイ プご との件 数 分 類 タ イ プ type S type B type D type O

デ ー タ 数 (件) 274 348 304 1486 機 械 学 習 と 評 価 尺 度 機 械 学 習 に は TinySVM を 用い た. 線形カ ーネ ルを 使 用 し , 2 分 割交差 検定 を行 った. 評価 尺度 には 精度, 再 現 率 , F 値 を用い る . 比 較 手 法 提 案 手 法 で は ,評 価 表 現 辞 書 ,type S の 手が かり語 , type D の 手 が か り 語 , 文 タ イ プ , ツ イ ー ト と 論 文 の 類 似 度 ,RT の有無,全単 語の 出現 頻度を 素性 とし て機械 学 習 を 行 う . ベ ー ス ラ イ ン で は , 全 単 語 の 出 現 頻 度 の み を 素 性 と し て 機 械 学 習 を 行 う . 実 験 結 果 ツ イ ー ト の タ イ プ 分 類 の 実 験 結 果 を 表 5 に 示す. 表 5 : ツイー トの タイ プ分 類の実 験結 果 タ イ プ 精 度 (%) 再 現 率 (%) F 値 (%) ベ ー ス ラ イ ン type S 60.04 47.02 52.74 type B 63.59 49.96 55.96 type D 51.06 34.83 41.41 平 均 58.23 43.93 50.04 提 案 手 法 type S 58.80 49.93 54.00 type B 61.32 50.71 55.51 type D 53.35 35.36 42.53 平 均 57.82 45.33 50.68 表 5 の結 果 から ,比 較手 法に比 べ, 全タ イプに おけ る 平 均 の F 値 が向上 した .type D にお いて は,精 度 2.29 ポ イ ン ト , 再 現 率 0.57 ポイン ト 向 上し た.

5. 考 察

5.1. Twitter と論 文 との自 動 対 応 付 け

次 に , 4.1 節 の 実 験 結 果 に つい て 考 察 す る . シス テ ム が 誤 っ て 抽 出 し た 例 と 抽 出 で き な か っ た 例 に つ い て 分 析 す る . シ ス テ ム が 誤 っ て 抽 出 し た 例 人 手 で は 対 応 付 け を 行 わ な か っ た が , シ ス テ ム で は 対 応 付 け し た 例 に つ い て 考 察 す る . 例 と し て , 類 似 度 を 測 る 際 , 同 じ ユ ー ザ の 情 報 を 追 加 し た 場 合 に つ い て 述 べ る . 図 5 に同 一ユ ーザ のツイ ート 例を 示す. 1 : ハ ッ シ ュ タ グ だ け で い い 結 果 が 出 た ら 元 も 子 も な い な w #rrds3 2010/12/18 14:12:08 2 : ブ ロ グ を 中 心 と し た 観 光 情 報 の 組 織 化 #rrds3 2010/12/18 14:12:59 3 : 旅 行 ブ ロ グ エ ン ト リ 中 の リ ン ク に 注 目 . #rrds3 2010/12/18 14:14:58 図 5 : 同一ユ ーザ のツ イー ト例 図 5 より,文 1 で は Twitter に関す る論 文に ついて 述 べ て い る の に 対 し , 文 2 と 3 で は,旅 行ブ ログ に関す る 論 文 に つ い て 述 べ て い る . 本 研 究 で は , 同 一 論 文 に つ い て 述 べ て い る ツ イ ー ト を 情 報 と し て 追 加 す る こ と を 目 的 に 同 一 ユ ー ザ の ツ イ ー ト の 追 加 を 行 っ た が , 別 の 論 文 に つ い て 述 べ て い る ツ イ ー ト が 追 加 さ れ て い る 例 が 存 在 し た . こ れ は , 図 5 の 例では ,旅 行ブ ログに 関 す る 論 文 の 発 表 が 14 時 10 分 頃に開 始さ れた が,前 の 論 文 発 表 に つ い て 言 及 し て い る ツ イ ー ト も ほ ぼ 同 時 刻 に 投 稿 さ れ た た め , 同 じ ユ ー ザ の ツ イ ー ト と し て シ ス テ ム が 追 加 し た と 考 え ら れ る . こ れ に よ り , 類 似 度 を 測 る と き に 用 い る ツ イ ー ト と は 別 の 論 文 に つ い て 言 及 し て い る ツ イ ー ト が 追 加 さ れ , シ ス テ ム が 誤 っ て 抽 出 し た と 考 え ら れ る . シ ス テ ム が 抽 出 で き な か っ た 例 次 に ,DP マッ チング を用 いた 際に ,人 手で は対応 付 け を 行 っ た が , シ ス テ ム で は 対 応 付 け を 行 わ な か っ た 例 に つ い て 考 察 す る . 論 文 と 類 似 度 を 比 較 す る と , 同 一 単 語 が 存 在 す る も の の 語 順 が 異 な る た め に , 対 応 付 け が 行 わ れ な か っ た 例 が 存 在 し た . シ ス テ ム が 対 応 付 け を 行 わ な か っ た ツ イ ー ト と 論 文 の 例 を 図 6 示す . [ツ イ ー ト ] 「 ゆ っ た り 」「 ゆ っ く り 」 み た い な 語 も オ ノ マ ト ペ な ん で す か ? [論 文 ] 図 3 の頻 度上 位のオ ノマ トペ 表現 は,大 別して「し っ か り 」の よ う に 事 物 や 行 為 の 描 写 に 用 い ら れ る 場 合 と ,「 ゆ っ く り 」 な ど の よ う に 記 述 者 の 気 持 ち の 記 述 に 用 い ら れ る 場 合 が あ る . 例 え ば 「 ゆ っ た り 」 で あ れ ば 「 ベ ッ ド 」 や 「 部 屋 」 な ど の 設 備 が「 ゆ っ た り し て い た 」と 用 い ら れ る こ と が よ く あ る . 図 6 : 対応付 けさ れな かっ た ツイ ート と論 文の例 図 6 のツイ ートと 論文 は, ともに 下線 部の 「ゆっ く り 」 や 「 ゆ っ た り 」 と い う 単 語 が 出 現 し て お り , 人 手 で は 類 似 し て い る と 判 断 し た .し か し ,DP マッ チング で は 語 順 を 考 慮 す る た め , 語 順 が 異 な る 場 合 , 類 似 度 が 小 さ く な る と い う 問 題 点 が あ る . そ の 解 決 策 と し て は , 類 似 度 を 測 る 際 , 複 数 の 類 似 性 尺 度 を 組 み 合 わ せ

(6)

て 行 う こ と で 解 決 で き る と 考 え ら れ る .

5.2. タイプ分 類

4.2 節 の 実 験 結 果 に つ い て 考 察 す る . シ ス テ ム が 誤 っ て 抽 出 し た 例 と 抽 出 で き な か っ た 例 に つ い て 分 析 す る . 例 と し て type S の場 合に ついて 考察 する . シ ス テ ム が 誤 っ て 抽 出 し た 例 人 手 で は 分 類 を 行 わ な か っ た が , シ ス テ ム で は 分 類 し た 例 に つ い て 考 察 す る . ツ イ ー ト の タ イ プ の 判 定 誤 り の 原 因 と し て , t ype S に おい て不要 な手 がか り語が 存 在 し た こ と が あ げ ら れ る . type S の 手 が か り 語 に は , 評 価 に 関 す る 語 が 多 く 存 在 す る .し か し ,情 報 利 得 に よ り 自 動 で 収 集 し た た め , 「 幸 せ 」「 え ら い 」と い っ た 論 文 の 評 価 と は 関 係 の な い 語 も 収 集 さ れ た . こ れ に よ り ,人 手 で は type S でない と 判 定 し た ツ イ ー ト が , シ ス テ ム で は 手 が か り 語 が 存 在 し た た め , type S と 判定 したと 考え られ る . シ ス テ ム に よ り 抽 出 で き な か っ た 例 次 に , 人 手 で は 分 類 を 行 っ た が , シ ス テ ム で は 分 類 を 行 わ な か っ た 例 に つ い て 考 察 す る . ツ イ ー ト の タ イ プ の 判 定 誤 り の 原 因 と し て , type S の 手が かり 語の不 足 が あ げ ら れ る . type S の 手 が か り 語 と し て ,「 素 晴 ら し い 」や「 面 白 い 」 と い っ た , 論 文 を 評 価 す る 際 に 用 い ら れ る 単 語 を 素 性 と し て 用 い た . し か し , ツ イ ー ト デ ー タ に よ っ て は ,同 じ「 素 晴 ら し い 」と い う 意 味 で も「 ス バ ラ シ イ 」 「 す ば ら し い 」 な ど 様 々 な 記 述 が 存 在 す る . 評 価 表 現 辞 書 で は ,「 す ば ら し い 」と「 ス バ ラ シ イ 」,「 素 晴 ら し い 」 は , 同 じ 単 語 の 代 表 の 表 現 で あ る 「 素 晴 ら し い 」 に 変 換 さ れ て い る た め ,「 素 晴 ら し い 」し か 登 録 さ れ て お ら ず ,情 報 利 得 に よ り 収 集 し た type S の 手が かり語 に お い て も ,「 ス バ ラ シ イ 」は 登 録 さ れ て い な い .こ れ に よ り , 同 じ 意 味 で も 表 記 の 違 う 単 語 は 評 価 語 と し て 扱 わ れ な か っ た た め ,抽 出 で き な か っ た と 考 え ら れ る .

6. お わ り に

本 研 究 で は , Twitter と 学 会 の 発 表 論 文 を 用 い て , Twitter と 論 文 と の 自 動 対 応 付 け の 手 法 と ,学 会 に 関 す る ツ イ ー ト の タ イ プ を 自 動 分 類 す る 手 法 を 提 案 し た . Twitter と 論 文 と の 自 動 対 応 付 け で は ,類 似 度 に 基 づ く 手 法 を 提 案 し た . ま た , 類 似 度 を 測 る 際 , 同 一 ユ ー ザ の 情 報 を 追 加 し た 対 応 付 け も 行 っ た .実 験 の 結 果 ,DP マ ッ チ ン グ の ユ ー ザ 情 報 を 追 加 し た 場 合 で 比 較 手 法 に 比 べ て 精 度 が 4.94 ポ イント ,再 現率 が 9.77 ポ イント 向 上 し 提 案 手 法 の 有 効 性 を 示 し た . タ イ プ 分 類 で は , type S, type B, type D, type O の 4 つ の タ イ プ に , 機 械 学 習 を 用 い て 自 動 分 類 を 行 っ た . 実 験 の 結 果 , 提 案 手 法 が 比 較 手 法 に 比 べ て 結 果 が 向 上 し 提 案 手 法 の 有 効 性 を 示 す こ と が で き た .

文 献

[1] V. Qazvinian, D. R. Radev, S.M. Mohammad, B. Dorr, D. Zajic, M. Whidby, T. Moon, “Generatin g Extractive Summaries of Scientific Paradigms” Journal of Artificial Intelligence Research, Vol.46, pp.165-201, 2013. [2] 越 智 洋 司 , 中 筋 浩 之 ,“プ レ ゼ ン テ ー シ ョ ン と 連 動 し た モ バ イ ル 型 レ ス ポ ン ス シ ス テ ム の 開 発” ARG-WI2, No.1, pp.11-14, 2012. [3] 坂 東 慶 太 ,“Altmetrics の 可 能 性 ソ ー シ ャ ル メ デ ィ ア を 活 用 し た 研 究 評 価 指 標” 情 報 管 理 , Vol.55, No.9, pp.638-646, 2012.

[4] E. Garfield, “Citation Indexes to Science : A New Dimension in Documentation Th ought the Association of Ideas” Science, No.122, pp. 108 -111, 1995.

[5] D. Yogatama, M. Heilman, B. O’Connor, C. Dyer, “Predicting a Scientific Community’s Response to an Article” Proceedings of EMNLP ’11, pp.594-604, 2011.

[6] J. Long, Y. Mo, Z. Ming, L. Xiaohua, Z. Tiejun, “Target-dependent Twitter Sentiment Classification, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics ” pp.151-160, 2011.

[7] L. Barbosa, J. Fenq, “Robust Sentiment Detection on Twitter from Biased and Noisy Data ” Proceedings of COLING ’10, pp.36-44, 2010.

[8] 鍜 治 伸 裕 , 喜 連 川 優 , “自 動 構 築 し た 評 価 文 コ ー パ ス か ら の 評 価 表 現 辞 書 の 構 築 ,”日 本 デ ー タ ベ ー ス 学 会 Letters, Vol.6, No.1, pp.41-44, 2007. [9] 加 藤 大 智 , NGUYENMANH CUONG , 橋 本 泰 一 , 横 田 治 夫 ,“ 論 文 の ラ ベ ル 付 き ク ラ ス タ リ ン グ の た め の 情 報 利 得 を 用 い た キ ー ワ ー ド 選 定” DEIM Forum 2012, E10-1, 2012. [10] 横 山 憲 司 , 難 波 英 嗣 , 奥 村 学 , “Support Vector Machine を 用 い た 談 話 構 造 解 析 ” 情 報 処 理 学 会 研 究 報 告 . 自 然 言 語 処 理 , 2003(23), pp.193-200, 2003.

表 3 :  ツイー トデ ータ   学 会 名   ハ ッ シ ュ タ グ   デ ー タ 数 (件)  人 工 知 能 学 会 2012  #jsai2012  702  第 3 回楽天 開発   シ ン ポ ジ ウ ム   #rrds3  706  言 語 処 理 学 会 2012  #nlp2012  505  地 理 情 報 シ ス テ ム 学 会 2011  #jisa2011  356  次 に , 収 集 し た ツ イ ー ト デ ー タ を , 人 手 に よ り タ イ プ 分 類 し

参照

関連したドキュメント

実際, クラス C の多様体については, ここでは 詳細には述べないが, 代数 reduction をはじめ類似のいくつかの方法を 組み合わせてその構造を組織的に研究することができる

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例

なお︑本稿では︑これらの立法論について具体的に検討するまでには至らなかった︒

試験体は 4 タイプである.タイプAでは全ての下フラン ジとウェブに,タイプ B 及び C では桁端部付近の下フラン ジ及びウェブに実橋において腐食した部材を切り出して用

2 解析手法 2.1 解析手法の概要 本研究で用いる個別要素法は計算負担が大きく,山

そのため本研究では,数理的解析手法の一つである サポートベクタマシン 2) (Support Vector

節の構造を取ると主張している。 ( 14b )は T-ing 構文、 ( 14e )は TP 構文である が、 T-en 構文の例はあがっていない。 ( 14a