研究テーマ考案ブログ記事を知識源とした雑談メタファに基づく情報推薦

(1)

Twitterにおける見落とし情報の

話題構造抽出手法

自然科学研究科

知能情報学専攻

21424003 灘本研究室

大原啓詳

(2)

背景

興味のある事柄について詳しいユーザ

Follow

共通の趣味

Tweet

Twitterにおけるユーザ同士の繋がり

多くフォロイーをフォローする

詳細な情報・多様な情報を取得できる

フォロイーフォロワー

(3)

背景

有益な情報の見落としが発生

一方で… 加速したタイムラインを常時確認することは困難莫大な量の多様な情報がタイムライン上に混在多くのユーザをフォロータイムライン上には大量のツイートが流れる話題AのTweet 話題BのTweet 話題AのTweet 話題CのTweet 話題EのTweet 話題BのTweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet

(4)

見落とした期間のタイムライン

背景

閲覧していない期間の情報を全て確認 フォロー数の多い 閲覧者には負担が大きい

閲覧していない期間の情報を

容易に把握できる仕組みが必要

見落とした期間のタイムライン 閲覧者が既に 知っている情報 閲覧者が 知らない新情報 知っている情報知らない情報知っている情報知っている情報知らない情報ツイート量が多い場合、一目で判断することは困難

(5)

目的

閲覧者が閲覧していない期間にフォローしているユーザから発信された情報 見落とし情報

見落とし情報の話題構造を抽出し

閲覧者にわかりやすく提示

有益な情報の発見が容易に

(6)

見落とし情報の要素

見落とし期間の

時間情報

話題の粒度

見落とし情報

未知の話題

既知の話題

(7)

手法の全体図

話題の粒度

ツイートの

(8)

野球プロ野球チーム野球選手イチロー野球場高校野球 _田中将大阿部慎之助黒田博樹日本人メジャーリーガー

話題の粒度

⇒話題の詳しさ・細かさ

(9)

話題の粒度と概念構造

サッカー選手サッカー本田圭介香川真司ヤンキース田中将大イチロー野球選手野球野球球団

話題を概念構造にマッピング

(10)

手法の全体図

見落とし情報の

提示手法

見落とし期間

の時間情報

(11)

(12)

あるクラスタ中の全てのツイートが

見落とし期間中に投稿されたもの

見落とし情報の分類

未知の話題

既知の話題

あるクラスタ中のツイートが

見落とし期間と閲覧期間の両方に投稿されたもの

(13)

閲覧期間に基づく話題の分類

見落とした期間見落とし期間に存在するツイート見落としたツイート見落としたツイート見落としたツイート見落としたツイート見落としたツイート見落としたツイート見落としたツイートイチロー閲覧したツイート閲覧したツイート見落としたツイート見落としたツイート _{見落とした} ツイート見落としたツイート見落としたツイート閲覧したツイート田中将大既知の話題未知の話題 t

(14)

手法の全体図

見落とし情報の

提示手法

(15)

見落とし情報の提示手法

抽出した話題の粒度と，閲覧期間に基づく分類を直感的にわかりやすい形で提示する手法

閲覧期間と話題の粒度を考慮した

トピックグラフを提示

プロトタイプシステムとして 1階層上位の上位概念を用いてトピックグラフを生成

(16)

見落とし情報の提示手法

どちらが上位概念であるか

一目ではわかりにくい

(17)

見落とし情報の提示手法

イチロー 田中将大 日本人 メジャーリーガー MLBの野球チーム ニューヨーク ヤンキース トピックノード：ツイートを含むノード 概念ノード：ツイートを含まないノード

(18)

見落とし情報の提示手法

• トピックノード

未知の話題：青既知の話題：赤

見落としの多さにより色を変化 • 概念ノード：緑

(19)

見落とし情報の提示手法

選択したノードの隣接ノード

トピックノードの場合：ノードに含まれるツイート概念ノードの場合：下位概念のラベル

(20)

実験

・話題の粒度への概念構造の利用

に関する実験

(21)

話題の粒度への概念構造の利用に関する実験

実験目的話題の粒度に対して概念構造を用いる手法が，どのような話題に対して適用可能であるかを検証する実験内容 5 つの話題について予備実験から仮説を立て，仮説の検証を行うことにより，それぞれの話題に対して話題の粒度として概念構造を用いることが妥当であるかの検証を行う

(22)

実験の手順

1. 2000件のツイートをクラスタリングし，クラスタ毎のトピックを抽出 2. トピックの上位概念を取得し,そのクラスタのタグとする 3. 同じタグを持つクラスタを対とし，クラスタ対と呼ぶ 4. 被験者にクラスタ対とタグを提示し，クラスタ対に対してタグが適切かを 5段階で評価

(23)

クラスタ対とタグの例

話題クラスタ1 _{話題クラスタ2} タグ TOKIO兄さんかっこよすぎて涙; TOKIO兄さんかっこよすぎ; TOKIO兄さんもかっこよい; そして関ジャニ∞デビュー9周年おめでとういつもほんとにありがとうしかないです。もっと早く好きになりたかったなーと後悔してるけど確実に大きくなってるからすごいなとジャニーズ 話題クラスタ1 _{話題クラスタ2} タグクリスティアーノロナウドかっこよすぎ; いや、でもやっぱりクリスティアーノロナウドだ。; クリスティアーノロナウドだろ; バルセロナもついにメッシにブーイングがとぶようになったか; メッシ笑; メッシも絶好調だし; バロンドール受賞者

(24)

実験条件１

対象とする話題：5つ話題：「政治」「音楽，芸能」「スポーツ」「アニメ，ゲーム」「コンピュータ」対象ツイート：2000件/話題クラスタ対：50件/話題被験者数：各話題について知識のある被験者4～11名政治：8人音楽，芸能：11人スポーツ：5人アニメ，ゲーム：4人コンピュータ：5人

(25)

実験条件２

諸条件クラスタリングツール：Bayon クラスタ数：Bayon の分割ポイントにより自動で決定 Bayon の分割ポイント：1.0 クラスタリング結果に対するcos 類似度の閾値：0.5 形態素解析器：汎用日本語形態素解析エンジンMeCab 辞書データ：IPA 辞書を日本語版Wikipedia のページタイトルと，はてなキーワードの単語を固有名詞として追加した辞書

(26)

仮説1：話題「政治」話題の内容が専門的であり，かつ話題の幅が限定的であるため，話題の粒度に概念構造を用いる手法が効果的である．仮説2：話題「音楽，芸能」アーティスト名や番組名など比較的詳細度の高い話題を多く含むため，話題の粒度に概念構造を用いる手法が効果的である．

ツイートの話題に関する仮説1

(27)

ツイートの話題に関する仮説2

仮説3：話題「コンピュータ」概念構造上に存在する専門的な用語についての話題が多いため，話題の粒度に概念構造を用いる手法が効果的である．仮説4：話題「スポーツ」スポーツ選手や競技の開催地といった話題には，話題の粒度に概念構造を用いることは困難である．一方で競技名やスポーツ用語などの話題については話題の粒度に概念構造を用いる手法が効果的である．

(28)

ツイートの話題に関する仮説3

仮説5：話題「ゲーム，アニメ」

キャラクター名や略称などの詳細度が極端に高い語が話題になりやすいため，話題の粒度に

(29)

9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0～2.0 2.0～3.0 3.0～4.0 4.0～5.0 評価データ数 (件 ) 評価値の平均政治音楽芸能コンピュータスポーツゲームアニメ

結果と考察（政治）

• 「政治」については50件中34件（72％）のデータの評価の平均値が3.0より大きい • 付与されたタグの多くが国政や地域政治などに関するものであり，政治から逸脱したトピックはあまり抽出されなかった．

(30)

• 付与されたタグの多くが国政や地域政治などに関するものであり，政治から逸脱したトピックはあまり抽出されなかった．話題の内容が専門的であり，かつ話題の幅が限定的であるため，話題の粒度に概念構造を用いる手法が効果的である．

結果と考察（政治）

仮説1：政治 • 72％のデータの評価の平均値が 3.0より大きい • 付与されたタグの多くが国政や地域政治などに関するものであった

仮説は

「真」

(31)

結果と考察（音楽，芸能）

• 「音楽，芸能」については50件中28件（56％）のデータの評価の平均値が3.0より大きい • 評価値の平均が2未満のもの，4以上のものに二極化していた 9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0～2.0 2.0～3.0 3.0～4.0 4.0～5.0 評価データ数 (件 ) 評価値の平均政治音楽芸能コンピュータスポーツゲームアニメ

(32)

結果と考察（音楽，芸能）

• 評価が特に高いデータとして，「～の番組名」や「SMAP」などのかなり細かい話題のタグが付与されているものが確認された • 評価が低いデータには「日本の地域」というタグが，人名に対して誤って付与されているものなどが多い

(33)

• 付与されたタグの多くが国政や地域政治などに関するものであり，政治から逸脱したトピックはあまり抽出されなかった．アーティスト名や番組名など比較的詳細度の高い話題を多く含むため，話題の粒度に概念構造を用いる手法が効果的である．

結果と考察（音楽，芸能）

仮説2：音楽，芸能 • 56％のデータの評価の平均値が 3.0より大きい • 話題の内容が詳細なタグは評価が高い

仮説は

「真」

(34)

結果と考察（コンピュータ）

• 話題「コンピュータ」については50件中22件（44％）のデータについて評価の平均値が3.0より大きい • 評価の平均値が低いものと高いものが混在 9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0～2.0 2.0～3.0 3.0～4.0 4.0～5.0 評価データ数 (件 ) 評価値の平均政治音楽芸能コンピュータスポーツゲームアニメ

(35)

結果と考察（コンピュータ）

• 他のカテゴリと比べて社会，人間，概念など漠然としており内容のつかめないタグが付与されやすい傾向にある • トピック抽出の段階で他のカテゴリに比べて適切なトピックが抽出されにくい

(36)

• 付与されたタグの多くが国政や地域政治などに関するものであり，政治から逸脱したトピックはあまり抽出されなかった．概念構造上に存在する専門的な用語についての話題が多いため，話題の粒度に概念構造を用いる手法が効果的である．

結果と考察（コンピュータ）

仮説3：コンピュータ • 44％のデータの評価の平均値が 3.0より大きい • 漠然としたタグが付与されやすい

仮説は

「偽」

• トピック抽出が困難

(37)

結果と考察（スポーツ）

• カテゴリ「スポーツ」については50件中21件（42％）のデータについて評価の平均値が3.0より大きい ⇒全体としての評価は低い • 評価が2.0未満となったデータが最も多い 9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0～2.0 2.0～3.0 3.0～4.0 4.0～5.0 評価データ数 (件 ) 評価値の平均政治音楽芸能コンピュータスポーツゲームアニメ

(38)

結果と考察（スポーツ）

• スポーツ用語や，競技名については概念構造を粒度として用いることが可能 • フルネームの人名が用いられるトピックが少なく，「日本の地名」といったタグが誤って付与されていた ⇒人名などへの対応は困難

(39)

スポーツ選手や競技の開催地といった話題には，話題の粒度に概念構造を用いることは困難である．一方で競技名やスポーツ用語などの話題については話題の粒度に概念構造を用いる手法が効果的である．

結果と考察（スポーツ）

仮説4：スポーツ

仮説は

「真」

• スポーツ用語や，競技名に効果的 • 人名などへの適用は困難

(40)

結果と考察（アニメ，ゲーム）

• カテゴリ「アニメ，ゲーム」については50件中26件（52%）のデータについて評価の平均値が3.0より大きい 9 7 24 10 19 2 10 19 17 9 12 12 25 4 10 11 9 12 13 16 0 5 10 15 20 25 30 1.0～2.0 2.0～3.0 3.0～4.0 4.0～5.0 評価データ数 (件 ) 評価値の平均政治音楽芸能コンピュータスポーツゲームアニメ • 評価の平均値が2.0未満となったデータが少ない

(41)

結果と考察（アニメ，ゲーム）

• ゲームやアニメのタイトルといったのトピックは高い評価値が得られた． • 略称などはWikipediaのカテゴリ構造を概念構造として用いる場合，リダイレクト情報などである程度対応可能

(42)

キャラクター名や略称などの詳細度が極端に高い語が話題になりやすいため，話題の粒度に概念構造を用いることは困難である．

結果と考察（アニメ，ゲーム）

仮説5：アニメ，ゲーム

仮説は

「偽」

• ゲーム，アニメタイトルなどに効果的 • 略称などにも対応可能

(43)

• 仮説1：政治に対して効果的 ⇒ 真 • 仮説2：音楽，芸能に対して効果的 ⇒ 真 • 仮説3：コンピュータに対して効果的 ⇒ 偽 • 仮説4：スポーツに対して限定的に適用可能 ⇒ 真 • 仮説5：アニメ，ゲームに対して適応困難 ⇒ 偽

仮説検証の結果

(44)

結果と考察

実験に用いた5つのカテゴリについては，いずれも40～70％程度のタグが高い評価を得た話題の粒度に，概念構造を用いる手法は比較的幅広いカテゴリに適用可能いずれのカテゴリにおいても「漢字訓」「参照方法」「登録商標」といった話題になりえないタグが存在した

(45)

まとめと今後の課題

・

閲覧期間と話題の粒度に基づくトピックグラフの生成により見落とし期間中の情報をわかりやすい形で抽出・提示する手法を提案．・実験の結果､話題の粒度に概念構造を用いる手法の妥当性がある程度あることを確認．・今後の課題 1. 閲覧者の興味を考慮 2. フォロイーの投稿頻度や投稿する話題の粒度に着目し，提案手法の効果を検証

(46)

 国際会議（査読あり，1本）

 Hiromitsu Ohara， Yu Suzuki， Akiyo Nadamoto，

“ Detection of Missing Tweets based on Browsing Interval And Topic Granularity ’’，In Proceedings of the

17th International Conference on Information Integration and Web-based Applications & Services (iiWAS2015) ,

pp. 206-214, 2015.(Acceptance rate 30.0%)

研究成果

 紀要（１本） ● 大原啓詳，灘本明代，鈴木優，“Twitter のある情報発信ユーザの意外なツイートの抽出手法の提案“, 甲南大学紀要知能情報学編, Vol. 7, No. 1, pp. 51-64., 2014.

(47)

 研究会発表（5本）

 大原啓詳，鈴木優，灘本明代，“Twitter における閲覧期間を考慮した話題構造の抽出と提示手法”, 第8回データ工学と情報マネジメントに関するフォーラム(DEIM2016), B7-3, 2016.(to appear)

 大原啓詳，鈴木優，灘本明代，“閲覧期間を考慮したトピックグラフに基づくTwitterの見落とし情報抽出手法”，第162回データベースシステム研究会，2015.  大原啓詳，鈴木優，灘本明代， “閲覧期間と話題構造に基づくTwitter 上の見落とし情報の抽出”, 第6回ソーシャルコンピューティングシンポジウム(SoC2015), 1-3, 6 pages, 2015.  大原啓詳，鈴木優，灘本明代，“閲覧期間を考慮したTwitter上の見落とし情報抽出手法”, 第7回データ工学と情報マネジメントに関する

フォーラム(DEIM2015), A8-6, 7 pages., 2015.

 大原啓詳，鈴木優，灘本明代，“閲覧期間を考慮したTwitter上の意外な情報の抽出”,2014年度情報処理学会関西支部支部大会, G-03, 2

pages., 2014.

(48)

 ポスター発表（3本）

 大原啓詳，鈴木優，灘本明代，“Twitter における閲覧期間を考慮した話題構造の抽出と提示手法”, 第8回データ工学と情報マネジメントに関するフォーラム(DEIM2016), B7-3, 2016.(to appear)

 大原啓詳，鈴木優，灘本明代，“トピック推定に基づくソーシャルメディアからの耳より情報抽出手法の提案”，第162回データベースシステム研究会  大原啓詳，鈴木優，灘本明代，“閲覧期間を考慮したTwitter上の見落とし情報抽出手法”, 第7回データ工学と情報マネジメントに関するフォーラム(DEIM2015)

研究成果

(49)

研究成果

 受賞歴 • 第162回データベースシステム研究会学生奨励賞, 2015,11月 • 第6回ソーシャルコンピューティングシンポジウム (SoC2015) 学生奨励賞, 2015,6月

研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基づく情報推薦

Twitterにおける見落とし情報の

話題構造抽出手法

自然科学研究科

知能情報学専攻

21424003 灘本研究室

大原 啓詳

背景

Follow

Tweet

Twitterにおけるユーザ同士の繋がり

詳細な情報・多様な情報を取得できる

背景

有益な情報の見落としが発生

背景

閲覧していない期間の情報を

容易に把握できる仕組みが必要

目的

見落とし情報の話題構造を抽出し

閲覧者にわかりやすく提示

見落とし情報の要素

見落とし期間の

時間情報

話題の粒度

見落とし情報

未知の話題

既知の話題

手法の全体図

話題の粒度

話題の粒度

話題の粒度

⇒話題の詳しさ・細かさ

話題の粒度と概念構造

話題を概念構造にマッピング

手法の全体図

見落とし情報の

提示手法

見落とし期間

の時間情報

あるクラスタ中の全てのツイートが

見落とし期間中に投稿されたもの

見落とし情報の分類

未知の話題

既知の話題

あるクラスタ中のツイートが

見落とし期間と閲覧期間の両方に投稿されたもの

閲覧期間に基づく話題の分類

手法の全体図

見落とし情報の

提示手法

見落とし情報の提示手法

閲覧期間と話題の粒度を考慮した

トピックグラフを提示

見落とし情報の提示手法

どちらが上位概念であるか

一目ではわかりにくい

見落とし情報の提示手法

見落とし情報の提示手法

見落とし情報の提示手法

実験

・話題の粒度への概念構造の利用

に関する実験

話題の粒度への概念構造の利用に関する実験

実験の手順

クラスタ対とタグの例

実験条件１

実験条件２

ツイートの話題に関する仮説1

ツイートの話題に関する仮説2

ツイートの話題に関する仮説3

結果と考察（政治）

結果と考察（政治）

仮説は

「真」

結果と考察（音楽，芸能）

結果と考察（音楽，芸能）

結果と考察（音楽，芸能）

仮説は

「真」

結果と考察（コンピュータ）

研究テーマ考案ブログ記事を知識源とした雑談メタファに基づく情報推薦

大原啓詳