The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
様々
タ
縮
用い
多言語
対応
tweets
話題
類法
精度比較
王
駿キ
*1
佐藤
栄一
*1
延原
肇
*1
*1
筑波大学
情報工学研究科知能機能
専攻
Abstract タ 縮手法 う 言語 記述 キ 適用 特性 生 ソ 話題
類 適用 研究 行わ い 稿 日 語 英語 twitter情報 deflate, gzip, bzip 様々 タ 縮手法 用い 類 行い 特性 比較検討 行う 1次経験エン ロ 法 あ 類手法 採用 twitter
タ 利用 タ 対象 類実験 行い 適合率 再現率 観 比較 行い タ 縮手法 類
言語 依 機能 示
Keyword 多言語 タ 縮 話題 類 1次経験エン ロ
1.
ソ 代表 あ Twitter 手軽 知
知 驚 異 的 成 長
遂 い 一 方 や 情 報 流 速 い
興 味 あ 情 報 見 落 可 能性 高 く 解決
Twitter 対象 情 報推 薦や情 報検 索 研 究 盛
行 わ い [1][2] Twitter 話 題 類 い 投 稿
(tweet) 新語 多い 文法 的誤 多 い いう特 徴 あ
従来 形態 素解 析 及び bag-of-words 表現[3] 機 械 学 習 基 く 類 手 法 対 応 難 い 問 題 解
決 タ 縮 基 く 情 報 類 似 度 用 い 類
手法 提案 い [4] タ 縮 手法 数多く 多 様 特 徴 持 い Twitter 話 題 類 適 縮手 法 明 必 要 あ 稿
deflate[5], gzip[6] bzip2[7] 3種類 縮手法 用い 類
行 う ま 情 報 視 話題 類 考え 1 次 経 験 エ ン ロ 用 い 実 験 行 う タ 縮
言 語 依 う キ 適 応可 能 いう特 性
多 言 語 対応 検 証 稿 日 語
英語 tweets 両 方 類 行 い 類 結 果及 び精度 比 較
2.
データ圧縮に基づく分類方法
タ 縮 タ 持 冗 長 性 排 除
タ く あ 2 タ 連結
縮 際 2 タ 類似度 高い 冗長 部 多 く 縮 時 く 稿 提 案 手 法
西田 手法[8] 基 指定 文 列 キ ワ タ 含ま tweet キ 時系列順 連結
話題 A 以外 tweet キ 時系列順 連結 比較 B 定義 Benedetto 手 法[4] 基 稿 タ 縮
定 義 . 入 力 ( 類 い
tweet) 連 結 タ 縮 後 表
非類似度 表 対 類
定 義 類 閾 値 く 類似 い 断 限 情報 多い tweet 優先的 精 度 く 類 考 慮 ン タ
入
キ 1次経験エン ロ 均情報 計算 行う 情報 縮限界 各 縮 手法 性能
比較 要 指標 利用 0 次経験エン ロ
1次経験エン ロ
示 中 文 出現回数 直前 出現 文 連結 あ 1 次経験エン ロ 法
類 計算 類閾値 い場合 類似 い 断
3.
評価実験
各 縮手法 類性能 評価 研究 交差
検 定 用 い 類 閾 値 変 化 各 手 法 類 再 現
率 適合率 示 類精度 析 稿
JAVA 言 語 用 い 類 構 築 ま Twitter
Streaming API 利用 tweets タ 収集
3.1 実験データ
タ Twitter #記号 半角英数 構 成 特 文 列 あ 自 投 稿 内 容 他
人 や く 文 タ 付 実
験 人気 タ 話題 設定 日 語 英語 二
行 う 話 題 や 考 慮 日 連絡先:〒305-8573 茨城県つくば市天王台1-1-1
筑 波 大 学 大 学 院 シ ス テ ム 情 報 工 学 研 究 科 知 能 機 能 シ ス テ
ム専攻, 王駿キ,[email protected]
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 - 語tweets 替話題 #fxch 番組 #aniaca
ま 英語 tweets 海外流行 話題 #gameinsight 話題 #android タ 付 い tweets
話題 タ 付 い いtweets 比 較 実験 タ 毎 独立 行う
タ 縮 精度 高く確保 研究 tweets ン やretweet 記号RT マ べ 除 キ 注目 ま 検索 行う時極端 短い
tweets 有 用 い可 能 性 高 い 15
文 以 tweets べ 取 除 い い 実 験 用 い
tweets 具体 タ 表 び表 示
表 1 実験用 日 語 tweets タ
タ タ 付 タ 付 い
#fxch(jp) 765 65443
#aniaca(jp) 295 3750
表 2 実験用 英語 tweets タ
タ タ 付 タ 付 い
#gameinsight(en) 468 94651
#android(en) 287 83264
3.2 実験結果――日 語tweets 類
図1 図2 #fxch #aniaca 二 話題 対 類精度 結果 あ
図1及び図2 示 う 話題 違 類精度 状 況 変 わ い 縮 法 gzip 比 べ bzip2
deflate 類精度 観 少々優 い 示 い
ま 1次経験エン ロ 類精度 bzip2 deflate 低 く gzip 精度 あ 見
3.3 実験結果――英語tweets 類
図3 図4 #gameinsight #android 二 話題 対 英語 tweets 類 結果 示 日 語 類結 果 う bzip2 deflate う 類精度
ま 1次経験エン ロ 曲線 gzip 随 近 い
図 1 #fxch 類結果
図 2 #aniaca 類結果
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 3 - 3.4 ま
結果 bzip2 deflate 類精度 gzip及び1次経験 エン ロ 少 高い 1次経験エン ロ 法 場合 gzip 程度 類精度 持 見 ま 日 語 英語 tweets 類結果 総合的 見 類法
精 度 大 変 い わ 英語 日 語
場 合 タ 縮 類 法 言 語 影 響 い い 断
日 語 英語 tweets 場合 類精度 少 高く 原因 日 語 tweets 片仮 仮 漢
混 い 類 影響 思わ
4.
わ
Twitter tweets 新語や言葉的 誤 多数
構文解析や自然言語処理 難易度
タ 縮手法 検討 稿 タ 縮手法 多言語
対応 検証 bzip2,gzip deflate 種 類 縮手法 用い tweet 話題 類 行い ま 1次経 験 エ ン ロ 用 い 類 比 較 評 価 実 験 結 果 日
語 英語 い 類精度 あま 大 違い く ま
タ 縮 類法 日 語 英語 対応 断
ま 英語 場合 類精度 若 高い 推測 英
語tweets 文 列 日 語 単純 日 語 タ 仮 漢 変換 影響 類 精 度 悪 く 可 能
性 考え
後 展望 .実験 言語 増や 正確 多言
語 対 応 タ 縮 法 把 握 . 違 う言 語 tweet 検索 精確 タ 縮 基 く tweets
類 構築 挙
参考文献
[1] 浦大樹 , 諏訪博彦 , 鳥海不二夫 , 鬼塚真:ソ
チ 効率的 検索 提案 情報処理
学会論文誌. タベ 6(3), 29-39, 2013-06-28
[2] 宮西大樹 , 関和広 , 原邦昭:マ ロ ロ 文書 選
択 擬似 適合 タベ 研 究会
報告 2013-DBS-157(15), 1-6, 2013-07-15
[3] Sivic, Josef (April, 2009): E fici nt visual search of videos
cast as text retrieval. IEEE TRANSACTIONS ON PATTERN
ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4.
IEEE. pp. 591–605.
[4]D. Benedetto, E. Caglioti, and V. Loreto: Language
trees and zipping, Physical Review Letters,vol.88, no.4, 2002.
[5]Wikipedia,http://ja.wikipedia.org/wiki/Deflate.
[6] Wikipedia,http://ja.wikipedia.org/wiki/Gzip.
[7] Wikipedia,http://ja.wikipedia.org/wiki/Bzip2.
[8]西田京 , 坂 遼 , 藤村考 : タ 縮
Twitter 話題 類, 日 タベ 学会論文誌
10(1), 1-6,2011-06-00.