• 検索結果がありません。

Twitterのツイートの自動タグ付けを行うライフログシステムの提案

N/A
N/A
Protected

Academic year: 2021

シェア "Twitterのツイートの自動タグ付けを行うライフログシステムの提案"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2013-GN-87 No.16 2013/3/19. Twitter のツイートの自動タグ付けを行う ライフログシステムの提案 小林拓夢†1. 鈴木浩†1 服部哲†1. 速水治夫†1. ライフログとは,毎日の出来事などをデジタルデータに記録することであり,ログを見直すことで,これからの行動 に役立てることもできる.Twitter は,日々何か思ったことや,出来事などをつぶやくサービスであり,筆者は,先行 研究において Ttwitter のツイートを利用したライフログシステムを試作した.このシステムは,システム利用者に関 連のあるツイートを自動取得し,ライフログとして見やすい形で表示することができるものである.評価は良好であ ったが,ツイートのタグ付けを自動で行ってほしいという意見が多かった.また,Twitter に関連する分類は盛んに行 われているが,Twitter ユーザの分類であったり,ハッシュタグの分類であったり,ユーザ個人が利用するタグ付け手 法は提案されていない.そこで,本研究では Twitter のツイートの自動タグ付けできる「ツイートの自動タグ付け」を 提案する.本研究では,Twitter のツイートを形態素解析し,はてなキーワードと,はてなキーワードカテゴリデータ ベースを使用することで,ツイートの自動タグ付けを実現した.タグ付けされるカテゴリは,食・コンピュータ・ス ポーツ・映画など 17 種類で,ユーザはカテゴリ別に過去のツイートを検索し,一覧で表示することもできる.評価 実 験からツイートを自動タグ付けすることができ,検索方法を変更することでライフログとして有用なツイートを容易 に検索することができることが分かった.また,本システムの課題や改善点も見つかった.. A life log system that performs automatic tagging of Twitter's tweet TAKUMA KOBAYASHI†1 HIROSHI SUZUKI†1 AKIRA HATTORI†1 HARUO HAYAMI†1 Life-log is a memory of daily happenings. It is kept in digital data. When you review the life-log you can help you to action in the future. Twitter is service of tweets that are full of daily happenings, thinking and places. Authors have developed a life-log system using the tweets Twitter in previous studies. That system can Automatically obtain the tweets and can easy-to-see twitter's tweet. Many opinions on the evaluation were good but some opinions said want to automatically tagging tweets. In addition, related to Twitter classification has been done, but that are classification of Twitter user or hash tag. Tagging for tweet has not been proposed. In this paper, we propose "automatic tagging of Twitter's tweet". In this study was achieved. This study has morphological analysis of Twitter tweets and use "Hatena keyword" and "Hatena keyword category database" tags are 17 types, such as movies, sports, computer, food categories and user can also search past tweets by categories, displayed in a list. The evaluation shows This system can be tagged automatically tweets and be able to easily search for tweets. In addition, we also found issues and improvement of this system.. 1. はじめに ライフログとは,日々の出来事などをデジタルデータに記. 2. 研究背景 2.1 ライフログ. 録することである.近年,日本国内でもマイクロブログと呼ば. 我々人間の記憶はとても曖昧で,記憶の 7~8 割は記憶し. れる Twitter が急激にユーザ数を増やした.筆者は,この. た途端に忘れてしまい,日常の出来事などを一生覚える事. Twitter に投稿されるツイートもライフログに活用できる. など不可能である[1].しかし,我々は記憶に残さなくても. と考えられるため,「Twitter のツイートを利用したライフ. 長い間記録を保つ方法を編み出してきた.日記帳に毎日の. ログシステム」の提案をし,システムを試作し評価実験を. 出来事を紙に書き,文字や図を書き綴れば,その日記帳を. 行った.評価は良好であったが, 「膨大なツイートの中から. 読み返すことで,その時に何があったのか何を思ったのか. 有用なツイートだけを容易に探し出したい」,「ツイートの. を保存することができる.そして,今日はコンピュータ上. タグ付けを自動で行ってほしい」という意見が多かった.. にデジタルデータとして記録に残しておくことも可能にな. 取得した膨大なツイートを見返すときにはツイートを分野. った.ライフログとは日々の出来事などをデジタルデータ. 別に閲覧することが大切である.. に記録することである.日記帳や手帳のようなアナログデ. そこで,本論文では Twitter のツイートを自動でタグ付け できるライフログシステムを提案する.. ータではないため,記録は永遠に色あせなく,何度でも簡 単に複製,検索,解析を行うことができる. 2.2 Twitter Twitter とは,2006 年に Twitter 社が始めたサービスで, ミニブログやマイクロブログと呼ばれている[2].ユーザは. †1 神奈川工科大学大学院 情報工学専攻 Course of Information and Computer Sciences, Graduate School of Kanagawa Institute of Technology. ⓒ 2013 Information Processing Society of Japan. 自由気ままに「つぶやく」ことで,他のユーザと情報のや りとりを行う.この「つぶやき」の約 4 割は「食事中」, 「デ. 1.

(2) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2013-GN-87 No.16 2013/3/19. ート中」,「起床」,「読書中」などで,また他の 4 割は他の ユーザとの会話である[3].. か確認しやすくなっており,会話の一覧表示も可能である. また,取得されたツイートの検索機能も設けた.取得し. 2.3 Twitter のツイートを利用したライフログシステムの. た全てのツイートから指定したテキストで本文検索が可能. 提案. であり,各利用ユーザで利用可能なツイートのタグ付け機. 筆者は,先行研究において Twitter のツイートをライフロ グとして活用するシステムを試作した[4].本論文は,この. 能もある. (3) 評価. システムを大幅に,改善・機能追加したものになる.以前. 5 段階評価とアンケートを行った.評価は高く,特にラ. 試作したシステムは Twitter のツイートを取得し,ライフロ. イフログとして重要なログを残す・ログを見て何をしてい. グとして過去のツイートを活用するための Web アプリケ. たか分かるという点に関して高評価だった.しかし,多く. ーションであり,評価実験も行った.. のツイートのタグ付けが手動では大変である.自動でツイ. (1) ツイート取得部概要. ートのタグ付けを行ってほしいという意見が多かった.. TwitterAPI を使用し,Twitter からツイートやユーザ情報. 2.4 関連研究. を取得する.システムで自動取得されるツイートは,ユー. 2.4.1. Wikipedia のカテゴリ階層を利用した Twitter ユーザ. ザ自身のツイートと,ユーザのリツイート,ユーザのメン. のカテゴライズ. ションのツイート,ユーザのリプライ先のツイート,指定. 放地らの研究では,Wikipedia のカテゴリ階層情報を用い. されたユーザのツイートであり,他ユーザによるリプライ. て,自動的に Twitter ユーザをカテゴライズする手法を提案. など自分に関連のあるツイートを取得することができる.. した[5].Wikipedia のカテゴリ階層を用いることにより,. 図 1 に自動取得されるツイートの例を示す.その他,ユー. 階層的なカテゴリにユーザを割り当て,ユーザ推薦機能を. ザがログに残しておきたいと思ったツイートは手動で取得. 提供することができた.. することもできる.. 2.4.2 ベイジアンフィルタを用いた Twitter におけるツイー. 利用ユーザー A. 取得登録ユーザー B. その他のユーザー C. トのハッシュタグ分類 竹中らの研究では,ハッシュタグのついていないツイー トに対してハッシュタグの推定をした[6].まず,ハッシュ. 新しい. タグのついたツイートを学習し,次にハッシュタグがつい (1) @その他のユーザーX. (4) @利用ユーザーA. リプライ. (7) @利用ユーザーA. タイムライン. (2) RT@その他ユーザーD. (5) RT @その他ユーザーX. (8) つぶやき. (1) @その他ユーザーC. (6) つぶやき. (8) つぶやき. B4 つぶやき. (9) つぶやき. (9)へのリプライ(Status ID利用). (3) つぶやき. てないツイートがどのハッシュタグに属するか推定を行っ た.分類機にはベイジアンフィルタを使用し,それぞれの. リプライ. ハッシュタグについて 2 値分類を行い複数のハッシュタグ の推定を行った. 2.5 解決の着眼点 先行研究「Twitter のツイートを利用したライフログシ ステムの提案」で試作したシステムは,利用ユーザに関連 のあるツイートを取得し,閲覧することができるシステム. 古い. である.しかし,ツイートのタグ付けを行えるよう,ユー. :自動取得されるツイート. ザの手でタグ付けできる機能を設けたが,取得したツイー. 自動取得されるツイートの詳細 ツイート (1) (2) (3) (4) (5) (6) (7) (8) (9). 自動取得 ○ ○ ○ ○ × ○ ○ × ○. ツイート発信者 利用ユーザー 利用ユーザー 利用ユーザー 取得登録ユーザー 取得登録ユーザー 取得登録ユーザー その他のユーザー その他のユーザー その他のユーザー. ツイートの種類 リプライ リツイート 一般的なツイート 利用ユーザー宛てリプライ リツイート 一般的なツイート 利用ユーザー宛てリプライ 一般的なツイート 一般的なツイート. 使用API UserTimeline Retweeted by me UserTimeline UserTimeline・Mentions UserTimeline Mentions Show(status ID を利用). 図 1 自動取得されるツイートの例 Figure 1 Example of Automatic acquisition of tweets.. トが多いユーザには,一つ一つのツイートを人手でタグ付 けすることは非常に大変であった.そして,自動タグ付け 機能が欲しいという評価が多かった. また,関連研究は Twitter ユーザのカテゴライズであった り,ハッシュタグの推定であり,ツイートそのもののカテ ゴライズ・タグ付けは行っていない. そこで,本研究では,Twitter のツイートの自動タグ付け を行うライフログシステムを提案する.過去のツイートを. (2) ツイート閲覧部概要. タグ付けすることで,ユーザの過去の発言や行動を分野別. カレンダーから任意の日付を選びツイートを閲覧する. に一覧で表示することができる.例えば「食」とタグ付け. ことができる.ツイート単体には,左側にツイートしたユ. されたツイートを一覧表示することで,ユーザが過去に食. ーザのアイコン画像,ツイートしたユーザ名とスクリーン. べた料理などを時系列順に一覧で閲覧することができ,夕. 名,リプライの場合は宛先のユーザ名,日付時刻などを時. 食の献立など今後の行動に役立てることが出来る.このよ. 系列順に表示させることで,ツイートがいつ投稿されたの. うにライフログには取得したツイートのタグ付けが必要で. ⓒ 2013 Information Processing Society of Japan. 2.

(3) 情報処理学会研究報告 IPSJ SIG Technical Report あることが分かる.. 3. 提案システム 3.1 システム概要. Vol.2013-GN-87 No.16 2013/3/19. たツイート本文を形態素に分割し,はてなキーワード辞書 のキーワードとして判別された場合はてなキーワードカテ ゴリ情報データベースに問い合わせをし,カテゴリ情報を 取得し,カテゴリタグ情報をデータベースに保存する.. 本システムは,利用ユーザ自身のツイートや利用ユーザ に関連のあるツイートを取得し,ツイートへの自動タグ付 けを行う.そして,自動タグ付けされたツイートを後から タグ別に一覧で表示することができるシステムである.シ ステムは大きく 3 つに分かれ,ツイート取得部,ツイート 閲覧部,ツイートの自動タグ付け部からなるが,ツイート 取得部とツイート閲覧部の一部は先行研究のシステムを改 善・改良したものを使用する.本システムでは,ツイート の自動タグ付けを行うために株式会社はてなの「はてなキ ーワード」を利用する.はてなキーワードを使用すること で,ツイートへ 17 種類のカテゴリのタグを付与することが でき,膨大なツイートの学習を行う必要もない. 3.2 はてなキーワード. 図 2 ツイートの自動タグ付け概要. はてなキーワードとは,株式会社はてなが提供するキー. Figure 2 Automatic tagging of tweets. ワード共有サービスである[7].最初は同社が提供するブロ グサービス「はてなダイアリー」の機能のひとつで,はて. 3.4 タグ付けされたツイートの閲覧. なダイアリー中の言葉を自動的にキーワード化したり,リ. タグ付けされたカテゴリはシステムメイン画面のツイー. ンク化することから始まった.キーワードページは「はて. ト単体下部に表示される.カテゴリとタグ付けされたキー. なダイアリー」のユーザによって新しいキーワードが作ら. ワードを表示することでツイート本文内のどのキーワード. れ,日々作成・編集されている.現在,はてなキーワード. がタグ付けされたか分かるようになっている.図 3 にシス. には約 34 万のキーワードがある.. テムのメイン画面,図 4 に自動タグ付けされたツイートを. 3.2.1 はてなキーワードカテゴリ. 示す.. はてなキーワードが提供しているキーワードは「読書」, 「音楽」, 「映画」, 「ウェブ」, 「食」など 20 種類のカテゴリ に分類されているが,本研究ではカテゴリ「一般」,「はて な」, 「はてなダイアリークラブ」を除く 17 種類のカテゴリ を使用する. 3.2.2 はてなキーワードリンクスコア はてなキーワードの全キーワードには「リンクスコア」 と言われる数字がついており,これは「はてなダイアリー」 の自動キーワードリンクの設定に利用される.はてなダイ アリーのユーザの投票で決定されるスコアで,重要度が高 いキーワードほど高いスコアとなる傾向がある. 3.2.3 はてなキーワードカテゴリ情報 DB の作成 株式会社はてなから提供されるキーワードファイルに はカテゴリ情報やリンクスコア情報が含まれない.そのた め,本研究では,それぞれのキーワードにカテゴリ情報と リンクスコア情報を追加した「はてなキーワードカテゴリ 情報データベース」を作成し使用した.. 図 3 システムのメイン画面 Figure 3 Screenshot of Main page.. 3.3 ツイートの自動タグ付け部 自動タグ付け部では,取得したツイート本文の形態素解 析とタグ付けを行う.図 2 にツイートの自動タグ付け概要 を示す.形態素解析エンジンには,ユーザ辞書として「は てなキーワード」を組み込んだ MeCab を使用した.取得し. ⓒ 2013 Information Processing Society of Japan. 3.

(4) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2013-GN-87 No.16 2013/3/19. 4.1 自動タグ付けされたツイート数 取得されたツイートの総数は 35629 ツイート,そのうち 同カテゴリタグ 1 つのツイート数が 6936 ツイート,同カテ 図 4 自動タグ付けされたツイート. ゴリ 2 つ以上のツイートは 1066 ツイートで,合わせて約. Figure 4 Screenshot of Tweets that has tagged. 22%のツイートが自動タグ付けされた.また,ツイートの 文字数が多いほど自動タグ付けされやすく,自動タグ付け. 3.5 タグ付けされたツイートの検索 タグ付けされたツイートをカテゴリ別で検索することが できる.図 5.にカテゴリ検索画面の設定項目を示す.また, 各設定項目の説明を以下に示す. (1) 自分のログのみ. されるツイート数はツイート単体の文字数と比例すること が分かった. 4.2 自動タグ付けの正確性 500 個のツイートをランダムで表示し, タグを付与すべ きツイートの場合筆者がタグを指定し,それを「正解のタ. 「自分のログのみ」にチェックすると,本システムに取. グ」とし評価した.図 4 に自動タグ付けの正確性を示す.. 得されているツイートのうち「利用ユーザ自身が発言した. 67%がシステムと人手で同一の判定をしたが,33%のタグ. ツイート」のみが検索対象となる.本システムでは,利用. に対しては正解のタグと違うタグが付けられた.. ユーザに関連のあるツイートも自動取得されるため,利用. 正解のタグを付けた. ユーザに関連のあるツイート全てを検索対象とする場合は チェックを外して検索する.. 23%. (2) 2 つ以上の同カテゴリあり. 12%. タグ付け不要なツイートに タグ付けしなかった. 「2 つ以上の同カテゴリあり」にチェックすると,ツイ ート単体内に同じカテゴリタグが付与されたキーワードが 2 つ以上あるものを検索対象とする.. 10% 55%. (3) カテゴリの種類 検索したいカテゴリタグを設定できる.ここで選択でき. 正解のタグと異なるタグを 付けた・タグ付けしなかっ た タグ付け不要なツイート に,誤ってタグ付けした. るカテゴリタグははてなキーワードにあるカテゴリ 20 種 図 6 自動タグ付けの正確性. 類のうち,17 種類である.. Figure 6 The accuracy of the automatic tagging. (4) リンクスコアの選択 検索対象とするキーワードのリンクスコアの最小値を選 択できる.本システムでは 0,30,60,90 の 4 つから選択する. 4.3 自動タグ付けされたツイートのうちライフログとし. ことができ,数値を上げれば上げるほど「はてなユーザに. て有用なものの調査. よって投票された重要なキーワード」が検索対象となる. (5) 検索期間. 実験協力者に任意の 3 つのタグ選んでもらい, 6 つの設 定方法で検索してもらった.そして,検索結果総数と,総. 検索対象とする期間を設定できる.範囲を設定すること で任意の期間のツイートを検索対象とすることができる.. 数のうちライフログとして有用なものをカウント(総数 50 以上のものは 50 ツイートまで)した数を記録した.. 過去の膨大なツイートから過去のある期間を設定すること. リンクスコア 0 設定で平均 46%と,自動タグ付けされた. で,全体のツイートを絞って検索することが可能である.. ツイートの半数近くがライフログとして有用だということ が分かった.また,リンクスコアの数値を上げたり,2 つ 以上の同カテゴリあり設定にすると,有用なツイートが頻 出するが,検索結果に出現するツイートの数は減る. 4.4 Twitter と本システムでのツイートの検索所要時間の 計測. 図 5 カテゴリ検索設定項目 Figure 5 Settings of Category Search. 実験協力者に Twitter 本家と本システムを使って,過去の ツイートを探し出してらい目的のツイートが見つかるまで の時間を計測した.. 4. 評価実験 本システムの評価は,ツイートの自動タグ付けの正確性 の評価と,6 名の実験協力者による評価を行った.. 各ユーザに 3 つのお題を設定してもらい,計 18 回,実験 の所要時間を計測した.図 7 に各検索所要時間の累積グラ フ,表 1 に本システムと Twitter 本家での検索完了時間平均 と検索完了時間最大を示す.Twitter 本家では目的のツイー トを見つかるまで平均 1 分 23 秒かかっているが,本システ. ⓒ 2013 Information Processing Society of Japan. 4.

(5) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2013-GN-87 No.16 2013/3/19. ムでは平均 12 秒と平均 71 秒早く検索することができた.. 検索するときに Twitter 本家より優れていることが分かっ. また,Twitter 本家で検索完了するまで 5 分近くかかってい. た.. るお題に対しても本システムではわずか 30 秒で検索する ことができた.. 5. まとめと今後の展望 本研究では,Twitter のツイートの自動タグ付けを行うラ. 20. イフログシステムの提案をした.実験結果から,本研究で. 実験数 18. 提案したシステムを利用すると,自動タグ付けされたツイ. 16. ートのうち 67%が正確にタグ付け・タグ不要判定された.. 14. また,タグ付けされたツイートは検索方法を変更すること. 12 10. で,よりライフログとして有意なツイートを容易に絞って. 8. 探し出すことができることが分かった.しかし,システム. 6. の問題点・課題も見つかった.. 4. 今後は,本システムの機能の更なる改善や更なる実験を. 2. 0. 0:00 0:15 0:30 0:45 1:00 1:15 1:30 1:45 2:00 2:15 2:30 2:45 3:00 3:15 3:30 3:45 4:00 4:15 4:30 4:45 5:00 5:15 ∞. 本システム. 時間. Twitter本家. 行い,正確に自動タグ付けされなかったツイートに対して の処理方法の検討や,より正確に有意なツイートを正確に. 図 7 検索所要時間の累積グラフ. 導き出したい.具体的には,タグ付けを行うときにはてな. Figure 7 Cumulative graph of the time required for search. キーワード以外の情報を使用したり,ツイート単体でなく リプライや時間的関係性を考慮したツイートなどを含めて. 表 1 検索所要時間平均と検索所要時間最大. 解析することで,より正確にタグ付けを行いたい.また,. Table 1 Average time and maximum time for search. より詳細な評価実験を行うことで,ユーザの趣向やユーザ. 本システム. Twitter 本家. のツイート数に合ったカテゴリタグ検索方法を導き出した. 検索所要時間平均. 00:12.2. 01:23.0. 検索所要時間最大. 00:29.6. 04:56.4. 4.5 実験結果考察 4.1 節の実験結果より,学習なしに取得したツイートの うち約 22%に対して自動タグ付けされた.ツイートの自動 タグ付けに,はてなキーワードを使用したのは適切であっ たと考えられる.しかし,タグ付けされたツイート数が全 体の 22%と少なく,より多くのツイートへのタグ付けが必 要である.また,ツイート単体内の文字数が多ければ多い ほど自動タグ付けされやすく,多くの文字情報を含んだ大 切なツイートに対してタグ付けを行えていると考えられる. 4.2 節の実験結果より,正解タグとタグ不要に対する自 動タグ付けの正確率は 67%と良いタグ付けを行うことがで きたが,不正解のタグ付けを行っているものも 33%あった. 不正解のタグ付けを行ってしまったツイートに対しては検 討の余地があると言える. 4.3 節の実験結果より,自動タグ付けされたツイートの うち半数近くがライフログとして有用なツイートであった ことが分かった.また,リンクスコアの数値を上げたり,2 つ以上の同カテゴリに限定することで,有用なツイートを 容易に検索することができることがわかった.このことか ら,取得されたツイートが膨大なユーザが重要なツイート. い. 謝辞. 最後に本研究を行うにあたり,速水治夫教授,服部. 哲准教授,鈴木浩助教には丁寧なご指導やご助言を頂いた ことを深く感謝いたします.ならびに,多くのアドバイス をくださった研究室のメンバーに心から感謝を申し上げま す.. 参考文献 1) 記憶の心理 http://www.n-seiryo.ac.jp/~usui/koneko/kioku.html 2) Twitter http://twitter.com/ 3) Twitter のつぶやき,4 割は「意味のないおしゃべり」 http://www.afpbb.com/article/environment-science-it/it/2631654/44668 18 4) 小林拓夢,服部哲,速水治夫:Twitter のツイートを利用したラ イフログシステムの提案,DICOMO2011 シンポジウム, pp.1265-1270 (2010) 5) 放地宏佳,鶴田雅信,酒井浩之,増山繁:Wikipedia のカテゴリ 階層を利用した Twitter ユーザのカテゴライズ,言語処理学会 第 17 回年次大会 発表論文集 (2011) 6) 竹中姫子,古宮嘉那子,小谷善行:“ベイジアンフィルタを用い た Twitter におけるツイートのハッシュタグ分類”,情報処理学会 研究報告,Vol.2011-DD-80 No.1(2011.3) 7) はてなキーワード http://d.hatena.ne.jp/keyword/. だけを絞って過去のツイートをカテゴリタグ検索したいと きに有用であると考えれられる. 4.4 節の実験結果より,本システムは過去のツイートを. ⓒ 2013 Information Processing Society of Japan. 5.

(6)

図  4  自動タグ付けされたツイート  Figure 4 Screenshot of Tweets that has tagged
Figure 7 Cumulative graph of the time required for search

参照

関連したドキュメント

うのも、それは現物を直接に示すことによってしか説明できないタイプの概念である上に、その現物というのが、

tiSOneと共にcOrtisODeを検出したことは,恰も 血漿中に少なくともこの場合COTtisOIleの即行

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

共通点が多い 2 。そのようなことを考えあわせ ると、リードの因果論は結局、・ヒュームの因果

しかし , 特性関数 を使った証明には複素解析や Fourier 解析の知識が多少必要となってくるため , ここではより初等的な道 具のみで証明を実行できる Stein の方法

   遠くに住んでいる、家に入られることに抵抗感があるなどの 療養中の子どもへの直接支援の難しさを、 IT という手段を使えば

本事業を進める中で、

けることには問題はないであろう︒