• 検索結果がありません。

PDFファイル 3M4 「ツイッター分析・処理」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 3M4 「ツイッター分析・処理」"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

様々

用い

多言語

対応

tweets

話題

類法

精度比較

駿キ

*1

佐藤

栄一

*1

延原

*1

*1

筑波大学

情報工学研究科知能機能

専攻

Abstract タ 縮手法 う 言語 記述 キ 適用 特性 生 ソ 話題

類 適用 研究 行わ い 稿 日 語 英語 twitter情報 deflate, gzip, bzip 様々 タ 縮手法 用い 類 行い 特性 比較検討 行う 1次経験エン ロ 法 あ 類手法 採用 twitter

タ 利用 タ 対象 類実験 行い 適合率 再現率 観 比較 行い タ 縮手法 類

言語 依 機能 示

Keyword 多言語 タ 縮 話題 類 1次経験エン ロ

1.

ソ 代表 あ Twitter 手軽 知

知 驚 異 的 成 長

遂 い 一 方 や 情 報 流 速 い

興 味 あ 情 報 見 落 可 能性 高 く 解決

Twitter 対象 情 報推 薦や情 報検 索 研 究 盛

行 わ い [1][2] Twitter 話 題 類 い 投 稿

(tweet) 新語 多い 文法 的誤 多 い いう特 徴 あ

従来 形態 素解 析 及び bag-of-words 表現[3] 機 械 学 習 基 く 類 手 法 対 応 難 い 問 題 解

決 タ 縮 基 く 情 報 類 似 度 用 い 類

手法 提案 い [4] タ 縮 手法 数多く 多 様 特 徴 持 い Twitter 話 題 類 適 縮手 法 明 必 要 あ 稿

deflate[5], gzip[6] bzip2[7] 3種類 縮手法 用い 類

行 う ま 情 報 視 話題 類 考え 1 次 経 験 エ ン ロ 用 い 実 験 行 う タ 縮

言 語 依 う キ 適 応可 能 いう特 性

多 言 語 対応 検 証 稿 日 語

英語 tweets 両 方 類 行 い 類 結 果及 び精度 比 較

2.

データ圧縮に基づく分類方法

タ 縮 タ 持 冗 長 性 排 除

タ く あ 2 タ 連結

縮 際 2 タ 類似度 高い 冗長 部 多 く 縮 時 く 稿 提 案 手 法

西田 手法[8] 基 指定 文 列 キ ワ タ 含ま tweet キ 時系列順 連結

話題 A 以外 tweet キ 時系列順 連結 比較 B 定義 Benedetto 手 法[4] 基 稿 タ 縮

定 義 . 入 力 ( 類 い

tweet) 連 結 タ 縮 後 表

非類似度 表 対 類

定 義 類 閾 値 く 類似 い 断 限 情報 多い tweet 優先的 精 度 く 類 考 慮 ン タ

キ 1次経験エン ロ 均情報 計算 行う 情報 縮限界 各 縮 手法 性能

比較 要 指標 利用 0 次経験エン ロ

1次経験エン ロ

示 中 文 出現回数 直前 出現 文 連結 あ 1 次経験エン ロ 法

類 計算 類閾値 い場合 類似 い 断

3.

評価実験

各 縮手法 類性能 評価 研究 交差

検 定 用 い 類 閾 値 変 化 各 手 法 類 再 現

率 適合率 示 類精度 析 稿

JAVA 言 語 用 い 類 構 築 ま Twitter

Streaming API 利用 tweets タ 収集

3.1 実験データ

タ Twitter #記号 半角英数 構 成 特 文 列 あ 自 投 稿 内 容 他

人 や く 文 タ 付 実

験 人気 タ 話題 設定 日 語 英語 二

行 う 話 題 や 考 慮 日 連絡先:〒305-8573 茨城県つくば市天王台1-1-1

筑 波 大 学 大 学 院 シ ス テ ム 情 報 工 学 研 究 科 知 能 機 能 シ ス テ

ム専攻, 王駿キ,[email protected]

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 - 語tweets 替話題 #fxch 番組 #aniaca

ま 英語 tweets 海外流行 話題 #gameinsight 話題 #android タ 付 い tweets

話題 タ 付 い いtweets 比 較 実験 タ 毎 独立 行う

タ 縮 精度 高く確保 研究 tweets ン やretweet 記号RT マ べ 除 キ 注目 ま 検索 行う時極端 短い

tweets 有 用 い可 能 性 高 い 15

文 以 tweets べ 取 除 い い 実 験 用 い

tweets 具体 タ 表 び表 示

表 1 実験用 日 語 tweets タ

タ タ 付 タ 付 い

#fxch(jp) 765 65443

#aniaca(jp) 295 3750

表 2 実験用 英語 tweets タ

タ タ 付 タ 付 い

#gameinsight(en) 468 94651

#android(en) 287 83264

3.2 実験結果――日 語tweets 類

図1 図2 #fxch #aniaca 二 話題 対 類精度 結果 あ

図1及び図2 示 う 話題 違 類精度 状 況 変 わ い 縮 法 gzip 比 べ bzip2

deflate 類精度 観 少々優 い 示 い

ま 1次経験エン ロ 類精度 bzip2 deflate 低 く gzip 精度 あ 見

3.3 実験結果――英語tweets 類

図3 図4 #gameinsight #android 二 話題 対 英語 tweets 類 結果 示 日 語 類結 果 う bzip2 deflate う 類精度

ま 1次経験エン ロ 曲線 gzip 随 近 い

図 1 #fxch 類結果

図 2 #aniaca 類結果

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 - 3.4 ま

結果 bzip2 deflate 類精度 gzip及び1次経験 エン ロ 少 高い 1次経験エン ロ 法 場合 gzip 程度 類精度 持 見 ま 日 語 英語 tweets 類結果 総合的 見 類法

精 度 大 変 い わ 英語 日 語

場 合 タ 縮 類 法 言 語 影 響 い い 断

日 語 英語 tweets 場合 類精度 少 高く 原因 日 語 tweets 片仮 仮 漢

混 い 類 影響 思わ

4.

Twitter tweets 新語や言葉的 誤 多数

構文解析や自然言語処理 難易度

タ 縮手法 検討 稿 タ 縮手法 多言語

対応 検証 bzip2,gzip deflate 種 類 縮手法 用い tweet 話題 類 行い ま 1次経 験 エ ン ロ 用 い 類 比 較 評 価 実 験 結 果 日

語 英語 い 類精度 あま 大 違い く ま

タ 縮 類法 日 語 英語 対応 断

ま 英語 場合 類精度 若 高い 推測 英

語tweets 文 列 日 語 単純 日 語 タ 仮 漢 変換 影響 類 精 度 悪 く 可 能

性 考え

後 展望 .実験 言語 増や 正確 多言

語 対 応 タ 縮 法 把 握 . 違 う言 語 tweet 検索 精確 タ 縮 基 く tweets

類 構築 挙

参考文献

[1] 浦大樹 , 諏訪博彦 , 鳥海不二夫 , 鬼塚真:ソ

チ 効率的 検索 提案 情報処理

学会論文誌. タベ 6(3), 29-39, 2013-06-28

[2] 宮西大樹 , 関和広 , 原邦昭:マ ロ ロ 文書 選

択 擬似 適合 タベ 研 究会

報告 2013-DBS-157(15), 1-6, 2013-07-15

[3] Sivic, Josef (April, 2009): E fici nt visual search of videos

cast as text retrieval. IEEE TRANSACTIONS ON PATTERN

ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4.

IEEE. pp. 591–605.

[4]D. Benedetto, E. Caglioti, and V. Loreto: Language

trees and zipping, Physical Review Letters,vol.88, no.4, 2002.

[5]Wikipedia,http://ja.wikipedia.org/wiki/Deflate.

[6] Wikipedia,http://ja.wikipedia.org/wiki/Gzip.

[7] Wikipedia,http://ja.wikipedia.org/wiki/Bzip2.

[8]西田京 , 坂 遼 , 藤村考 : タ 縮

Twitter 話題 類, 日 タベ 学会論文誌

10(1), 1-6,2011-06-00.

参照

関連したドキュメント

Theorem 1.1 The principal order ideal generated by an involution w in the Bruhat order on the involutions in a symmetric group is a Boolean lattice if and only if w avoids the

Clearly changing u’s to v’s and d’s to h’s gives a bijection between escalating and panoramic Dyck paths preserving semilength. An edge of a Dyck path is a maximal subpath

Indexed BDDs : Algorithmic Advances in Techniques to Represent and Verify Boolean Functions.. IEEE Transaction on

水処理設備部 水処理設備第二

(4S) Package ID Vendor ID and packing list number (K) Transit ID Customer's purchase order number (P) Customer Prod ID Customer Part Number. (1P)

過水タンク並びに Sr 処理水貯槽のうち Sr 処理水貯槽(K2 エリア)及び Sr 処理水貯槽(K1 南エリア)の放射能濃度は,水分析結果を基に線源条件を設定する。RO

過水タンク並びに Sr 処理水貯槽のうち Sr 処理水貯槽(K2 エリア)及び Sr 処理水貯槽(K1 南エリア)の放射能濃度は,水分析結果を基に線源条件を設定する。RO

17 FVDDHI Embedded FLASH 1.8 V Regulator, Input to external filter required for 1 V mode 18 FVDDHO Embedded FLASH 1.8 V Regulator, Output from external filter required for 1 V mode..