研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基づく情報推薦

49 

Loading....

Loading....

Loading....

Loading....

Loading....

全文

(1)

Twitterにおける見落とし情報の

話題構造抽出手法

自然科学研究科

知能情報学専攻

21424003 灘本研究室

大原 啓詳

(2)

背景

興味のある事柄について 詳しいユーザ

Follow

共通の趣味

Tweet

Twitterにおけるユーザ同士の繋がり

多くフォロイーをフォローする

詳細な情報・多様な情報を取得できる

フォロイー フォロワー

(3)

背景

有益な情報の見落としが発生

一方で… 加速したタイムラインを 常時確認することは困難 莫大な量の多様な情報が タイムライン上に混在 多くのユーザをフォロー タイムライン上には大量のツイートが流れる 話題AのTweet 話題BのTweet 話題AのTweet 話題CのTweet 話題EのTweet 話題BのTweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet

(4)

見落とした期間 のタイムライン

背景

閲覧していない期間の 情報を全て確認 フォロー数の多い 閲覧者には負担が大きい

閲覧していない期間の情報を

容易に把握できる仕組みが必要

見落とした期間のタイムライン 閲覧者が既に 知っている情報 閲覧者が 知らない新情報 知っている情報 知らない情報 知っている情報 知っている情報 知らない情報 ツイート量が多い場合、一目で判断することは困難

(5)

目的

閲覧者が閲覧していない期間に フォローしているユーザから 発信された情報 見落とし情報

見落とし情報の話題構造を抽出し

閲覧者にわかりやすく提示

有益な情報の発見が容易に

(6)

見落とし情報の要素

見落とし期間の

時間情報

話題の粒度

見落とし情報

未知の話題

既知の話題

(7)

手法の全体図

話題の粒度

ツイートの

(8)

野球 プロ野球 チーム 野球選手 イチロー 野球場 高校野球 田中将大 阿部慎之助 黒田博樹 日本人 メジャーリーガー

話題の粒度

話題の粒度

⇒話題の詳しさ・細かさ

(9)

話題の粒度と概念構造

サッカー選手 サッカー 本田圭介 香川真司 ヤンキース 田中将大 イチロー 野球選手 野球 野球球団

話題を概念構造にマッピング

(10)

手法の全体図

見落とし情報の

提示手法

見落とし期間

の時間情報

(11)
(12)

あるクラスタ中の全てのツイートが

見落とし期間中に投稿されたもの

見落とし情報の分類

未知の話題

既知の話題

あるクラスタ中のツイートが

見落とし期間と閲覧期間の両方に投稿されたもの

(13)

閲覧期間に基づく話題の分類

見落とした期間 見落とし期間に 存在するツイート 見落とした ツイート 見落とした ツイート 見落とした ツイート 見落とした ツイート 見落とした ツイート 見落とした ツイート 見落とした ツイート イチロー 閲覧した ツイート 閲覧した ツイート 見落とした ツイート 見落とした ツイート 見落とした ツイート 見落とした ツイート 見落とした ツイート 閲覧した ツイート 田中将大 既知の話題 未知の話題 t

(14)

手法の全体図

見落とし情報の

提示手法

(15)

見落とし情報の提示手法

抽出した話題の粒度と,閲覧期間に基づく分類を 直感的にわかりやすい形で提示する手法

閲覧期間と話題の粒度を考慮した

トピックグラフを提示

プロトタイプシステムとして 1階層上位の上位概念を用いてトピックグラフを生成

(16)

見落とし情報の提示手法

どちらが上位概念であるか

一目ではわかりにくい

(17)

見落とし情報の提示手法

イチロー 田中将大 日本人 メジャーリーガー MLBの野球チーム ニューヨーク ヤンキース トピックノード:ツイートを含むノード 概念ノード:ツイートを含まないノード

(18)

見落とし情報の提示手法

• トピックノード

未知の話題:青 既知の話題:赤

見落としの多さにより色を変化 • 概念ノード:緑

(19)

見落とし情報の提示手法

選択したノードの隣接ノード

トピックノードの場合:ノードに含まれるツイート 概念ノードの場合:下位概念のラベル

(20)

実験

・話題の粒度への概念構造の利用

に関する実験

(21)

話題の粒度への概念構造の利用に関する実験

実験目的 話題の粒度に対して概念構造を用いる手法が, どのような話題に対して適用可能であるかを検証する 実験内容 5 つの話題について予備実験から仮説を立て, 仮説の検証を行うことにより,それぞれの話題に対して 話題の粒度として概念構造を用いることが妥当であるか の検証を行う

(22)

実験の手順

1. 2000件のツイートをクラスタリングし, クラスタ毎のトピックを抽出 2. トピックの上位概念を取得し,そのクラスタの タグとする 3. 同じタグを持つクラスタを対とし, クラスタ対と呼ぶ 4. 被験者にクラスタ対とタグを提示し, クラスタ対に対してタグが適切かを 5段階で評価

(23)

クラスタ対とタグの例

話題クラスタ1 話題クラスタ2 タグ TOKIO兄さんかっこよすぎて涙; TOKIO兄さんかっこよすぎ; TOKIO兄さんもかっこよい; そして関ジャニ∞デビュー9周年おめで とういつもほんとにありがとうしかな いです。もっと早く好きになりたかっ たなーと後悔してるけど確実に大きく なってるからすごいなと ジャニーズ 話題クラスタ1 話題クラスタ2 タグ クリスティアーノロナウドかっこ よすぎ; いや、でもやっぱりクリスティ アーノロナウドだ。; クリスティアーノロナウドだろ; バルセロナもついにメッシにブーイ ングがとぶようになったか; メッシ笑; メッシも絶好調だし; バロンドール 受賞者

(24)

実験条件1

対象とする話題:5つ 話題:「政治」「音楽,芸能」「スポーツ」 「アニメ,ゲーム」「コンピュータ」 対象ツイート:2000件/話題 クラスタ対:50件/話題 被験者数:各話題について知識のある被験者4~11名 政治:8人 音楽,芸能:11人 スポーツ:5人 アニメ,ゲーム:4人 コンピュータ:5人

(25)

実験条件2

諸条件 クラスタリングツール:Bayon クラスタ数:Bayon の分割ポイントにより自動で決定 Bayon の分割ポイント:1.0 クラスタリング結果に対するcos 類似度の閾値:0.5 形態素解析器:汎用日本語形態素解析エンジンMeCab 辞書データ:IPA 辞書を日本語版Wikipedia のページタイ トルと,はてなキーワードの単語を固有名詞として追加 した辞書

(26)

仮説1:話題「政治」 話題の内容が専門的であり,かつ話題の幅が 限定的であるため,話題の粒度に概念構造を 用いる手法が効果的である. 仮説2:話題「音楽,芸能」 アーティスト名や番組名など比較的詳細度の 高い話題を多く含むため,話題の粒度に 概念構造を用いる手法が効果的である.

ツイートの話題に関する仮説1

(27)

ツイートの話題に関する仮説2

仮説3:話題「コンピュータ」 概念構造上に存在する専門的な用語についての 話題が多いため,話題の粒度に概念構造を用いる 手法が効果的である. 仮説4:話題「スポーツ」 スポーツ選手や競技の開催地といった話題には, 話題の粒度に概念構造を用いることは困難である. 一方で競技名やスポーツ用語などの話題については 話題の粒度に概念構造を用いる手法が効果的である.

(28)

ツイートの話題に関する仮説3

仮説5:話題「ゲーム,アニメ」

キャラクター名や略称などの詳細度が極端に 高い語が話題になりやすいため,話題の粒度に

(29)

9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0~2.0 2.0~3.0 3.0~4.0 4.0~5.0 評価 デ ー タ数 (件 ) 評価値の平均 政治 音楽 芸能 コンピュータ スポーツ ゲーム アニメ

結果と考察(政治)

• 「政治」については50件中34件(72%)の データの評価の平均値が3.0より大きい • 付与されたタグの多くが国政や地域政治などに関する ものであり,政治から逸脱したトピックはあまり抽出 されなかった.

(30)

• 付与されたタグの多くが国政 や地域政治などに関するもの であり,政治から逸脱したト ピックはあまり抽出されな かった. 話題の内容が専門的であり,かつ話題の幅が 限定的であるため,話題の粒度に概念構造を 用いる手法が効果的である.

結果と考察(政治)

仮説1:政治 • 72%のデータの評価の平均値が 3.0より大きい • 付与されたタグの多くが国政や 地域政治などに関するもので あった

仮説は

「真」

(31)

結果と考察(音楽,芸能)

• 「音楽,芸能」については50件中28件(56%)の データの評価の平均値が3.0より大きい • 評価値の平均が2未満のもの,4以上のものに 二極化していた 9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0~2.0 2.0~3.0 3.0~4.0 4.0~5.0 評価 デ ー タ数 (件 ) 評価値の平均 政治 音楽 芸能 コンピュータ スポーツ ゲーム アニメ

(32)

結果と考察(音楽,芸能)

• 評価が特に高いデータとして,「~の番組名」や 「SMAP」などのかなり細かい話題のタグが付与されて いるものが確認された • 評価が低いデータには「日本の地域」というタグが, 人名に対して誤って付与されているものなどが多い

(33)

• 付与されたタグの多くが国政 や地域政治などに関するもの であり,政治から逸脱したト ピックはあまり抽出されな かった. アーティスト名や番組名など比較的詳細度の 高い話題を多く含むため,話題の粒度に概念 構造を用いる手法が効果的である.

結果と考察(音楽,芸能)

仮説2:音楽,芸能 • 56%のデータの評価の平均値が 3.0より大きい • 話題の内容が詳細なタグは 評価が高い

仮説は

「真」

(34)

結果と考察(コンピュータ)

• 話題「コンピュータ」については50件中22件(44%) のデータについて評価の平均値が3.0より大きい • 評価の平均値が低いものと高いものが混在 9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0~2.0 2.0~3.0 3.0~4.0 4.0~5.0 評価 デ ー タ数 (件 ) 評価値の平均 政治 音楽 芸能 コンピュータ スポーツ ゲーム アニメ

(35)

結果と考察(コンピュータ)

• 他のカテゴリと比べて社会,人間,概念など 漠然としており内容のつかめないタグが 付与されやすい傾向にある • トピック抽出の段階で他のカテゴリに比べて適切な トピックが抽出されにくい

(36)

• 付与されたタグの多くが国政や 地域政治などに関するものであ り,政治から逸脱したトピック はあまり抽出されなかった. 概念構造上に存在する専門的な用語について の話題が多いため,話題の粒度に概念構造を 用いる手法が効果的である.

結果と考察(コンピュータ)

仮説3:コンピュータ • 44%のデータの評価の平均値が 3.0より大きい • 漠然としたタグが付与されやすい

仮説は

「偽」

• トピック抽出が困難

(37)

結果と考察(スポーツ)

• カテゴリ「スポーツ」については50件中21件(42%) のデータについて評価の平均値が3.0より大きい ⇒全体としての評価は低い • 評価が2.0未満となったデータが最も多い 9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0~2.0 2.0~3.0 3.0~4.0 4.0~5.0 評価 デ ー タ数 (件 ) 評価値の平均 政治 音楽 芸能 コンピュータ スポーツ ゲーム アニメ

(38)

結果と考察(スポーツ)

• スポーツ用語や,競技名については概念構造を粒度と して用いることが可能 • フルネームの人名が用いられるトピックが少なく, 「日本の地名」といったタグが誤って付与されていた ⇒人名などへの対応は困難

(39)

スポーツ選手や競技の開催地といった話題には, 話題の粒度に概念構造を用いることは困難である. 一方で競技名やスポーツ用語などの話題については 話題の粒度に概念構造を用いる手法が効果的である.

結果と考察(スポーツ)

仮説4:スポーツ

仮説は

「真」

• スポーツ用語や,競技名に効果的 • 人名などへの適用は困難

(40)

結果と考察(アニメ,ゲーム)

• カテゴリ「アニメ,ゲーム」については50件中26件 (52%)のデータについて評価の平均値が3.0より 大きい 9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0~2.0 2.0~3.0 3.0~4.0 4.0~5.0 評価 デ ー タ数 (件 ) 評価値の平均 政治 音楽 芸能 コンピュータ スポーツ ゲーム アニメ • 評価の平均値が2.0未満となったデータが少ない

(41)

結果と考察(アニメ,ゲーム)

• ゲームやアニメのタイトルといったのトピックは 高い評価値が得られた. • 略称などはWikipediaのカテゴリ構造を概念構造として 用いる場合,リダイレクト情報などである程度対応可 能

(42)

キャラクター名や略称などの詳細度が極端に 高い語が話題になりやすいため,話題の粒度に 概念構造を用いることは困難である.

結果と考察(アニメ,ゲーム)

仮説5:アニメ,ゲーム

仮説は

「偽」

• ゲーム,アニメタイトルなどに 効果的 • 略称などにも対応可能

(43)

• 仮説1:政治に対して効果的 ⇒ 真 • 仮説2:音楽,芸能に対して効果的 ⇒ 真 • 仮説3:コンピュータに対して効果的 ⇒ 偽 • 仮説4:スポーツに対して限定的に適用可能 ⇒ 真 • 仮説5:アニメ,ゲームに対して適応困難 ⇒ 偽

仮説検証の結果

(44)

結果と考察

実験に用いた5つのカテゴリについては, いずれも40~70%程度のタグが高い評価を得た 話題の粒度に,概念構造を用いる手法は比較的 幅広いカテゴリに適用可能 いずれのカテゴリにおいても「漢字訓」「参照方法」 「登録商標」といった話題になりえないタグが存在した

(45)

まとめと今後の課題

閲覧期間と話題の粒度に基づくトピック グラフの生成により見落とし期間中の情報をわかり やすい形で抽出・提示する手法を提案. ・実験の結果、話題の粒度に概念構造を用いる手法の 妥当性がある程度あることを確認. ・今後の課題 1. 閲覧者の興味を考慮 2. フォロイーの投稿頻度や投稿する話題の粒度に着目 し,提案手法の効果を検証

(46)

 国際会議(査読あり,1本)

 Hiromitsu Ohara, Yu Suzuki, Akiyo Nadamoto,

“ Detection of Missing Tweets based on Browsing Interval And Topic Granularity ’’,In Proceedings of the

17th International Conference on Information Integration and Web-based Applications & Services (iiWAS2015) ,

pp. 206-214, 2015.(Acceptance rate 30.0%)

研究成果

 紀要(1本) ● 大原 啓詳,灘本 明代,鈴木優,“Twitter のある情報 発信ユーザ の意外なツイートの抽出手法の提案“, 甲 南大学紀要知能情報学編, Vol. 7, No. 1, pp. 51-64., 2014.

(47)

 研究会発表(5本)

 大原 啓詳,鈴木 優,灘本 明代,“Twitter における閲覧期間を考慮した 話題構造の抽出と提示手法”, 第8回データ工学と情報マネジメントに関 するフォーラム(DEIM2016), B7-3, 2016.(to appear)

 大原 啓詳, 鈴木 優,灘本 明代,“閲覧期間を考慮したトピックグラフ に基づくTwitterの見落とし情報抽出手法”,第162回データベースシス テム研究会,2015.  大原 啓詳,鈴木 優,灘本 明代, “閲覧期間と話題構造に基づくTwitter 上の見落とし情報の抽出”, 第6回ソーシャルコンピューティングシンポ ジウム(SoC2015), 1-3, 6 pages, 2015.  大原 啓詳,鈴木 優,灘本 明代,“閲覧期間を考慮したTwitter上の見落 とし情報抽出手法”, 第7回データ工学と情報マネジメントに関する

フォーラム(DEIM2015), A8-6, 7 pages., 2015.

 大原 啓詳,鈴木 優,灘本 明代,“閲覧期間を考慮したTwitter上の意外 な情報の抽出”,2014年度情報処理学会関西支部 支部大会, G-03, 2

pages., 2014.

(48)

 ポスター発表(3本)

 大原 啓詳,鈴木 優,灘本 明代,“Twitter における閲覧期間を考慮した 話題構造の抽出と提示手法”, 第8回データ工学と情報マネジメントに関 するフォーラム(DEIM2016), B7-3, 2016.(to appear)

 大原 啓詳, 鈴木 優,灘本 明代,“トピック推定に基づくソーシャルメ ディアからの耳より情報抽出手法の提案”,第162回データベースシス テム研究会  大原 啓詳,鈴木 優,灘本 明代,“閲覧期間を考慮したTwitter上の見落 とし情報抽出手法”, 第7回データ工学と情報マネジメントに関する フォーラム(DEIM2015)

研究成果

(49)

研究成果

 受賞歴 • 第162回データベースシステム研究会 学生奨励賞, 2015,11月 • 第6回ソーシャルコンピューティングシンポジウム (SoC2015) 学生奨励賞, 2015,6月

Updating...

参照

Updating...

関連した話題 :