観光地のレビューからの
耳より情報抽出手法
☆阪井 奎伍 甲南大学 灘本 明代 甲南大学
背景
旅行行こう!
温泉
景色
テーマパーク
郷土料理
背景
観光地の情報
旅行行こう!
慣れていない土地や観光地
快適
もっと調べておけば
実は…だった
後悔
背景
最寄り駅
営業時間
基本的な情報
地下鉄から乗り継いで、雨にも 濡れずに行けるので便利。 9時、10時ころには人が増えるので、8時の営業 開始と同時にチケット売り場に行った方がいい。 東京スカイツリー
お得な情報
背景
レビューサイト
取引先様に観光として連れて 行っていただきました。 東京スカイツリーに初めて行きました。 初めてスカイツリーを見に行きましたが とても高く圧倒されました。 皆がソロソロ飽きた今ごろになって ようやく足を運んでみました。
不要な情報
背景
東京スカイツリーレビューサイト
押上駅が最寄です。 21時に最終入場です。 8時から入場できます。
基本的な情報
背景
東京スカイツリーレビューサイト
お得な情報
感想や経験談
基本的な情報
関係ない情報
背景
レビューサイト
情報量が膨大
お得な情報が 埋もれている「知って得した」 「参考になった」 と感じる情報
耳より情報
背景
お得な情報目的
効率的な知識の獲得に繋がる 後悔のない快適な旅行を!インターネット上の膨大な
観光地のレビューから耳より情報を抽出
耳より情報
有用な情報
推薦している情報 新しい情報 流行りの情報 ‐耳よりキーワードを含む情報耳より情報
有用な情報 ある程度レアな情報耳より情報
ある程度レアな情報 あまり知られて いない情報耳より情報
有用な情報 ある程度レアな情報 レアでない情報 よく知られている 情報 基本的な情報 レアすぎる情報 使える状況が 少なすぎる情報 関係のない情報有用な情報を抽出
システムの流れ
レビューを文単位で分割 ある程度レアな情報を抽出 ユーザ 耳より情報の決定 目的の観光地 入力 耳より情報提示 レビューサイトから観光地のレビューを取得 システム 2 月 12 日( 木) システムの流れ レビューを文単位で分割~~~~~~ ~~~~~~ ~~~~~~ ~~~~~~ ~~~~~~ ~~~
レビューを文単位で分割
2 月 12 日( 木) システムの流れ 経験談 耳より情報 感想 Aさんのレビュー 文単位で耳より情報を抽出システムの流れ
2 月 12 日( 木) システムの流れ レアな情報の抽出ついて 有用な情報を抽出 レビューを文単位で分割 ある程度レアな情報を抽出 ユーザ 耳より情報の決定 目的の観光地 入力 耳より情報提示 レビューサイトから観光地のレビューを取得 システム 有用な情報を抽出有用な情報の抽出
推薦しているレビューに 含まれるキーワード 抑止 状況説明 可能 不可能 気候 提案耳より お得耳より 時間情報 天気情報 失敗談有用な情報の抽出
提案耳より
‐相手に提案を促すような言葉 例)当日予約は相当並ぶので事前予約がおすすめです
お得耳より
‐お得感のある単語 例)カメラを持っていれば無料で撮影してくれます
時間情報
‐時間や季節を表す単語 例)夏は暑いので日焼け対策を
天気情報
‐天気や気候を表す単語 例)雨の日限定で記念バッジをもらえます有用な情報の抽出
観光地を対象 分類 耳よりキーワード例 提案耳より おすすめ,方がいい,良いと思,良いかと,良いの では,良いでしょう,良くない,すべき,するべき, いかが,間違いない,よさげ,なので,だから,し まった,混んで,困る,出来る,出来ま お得耳より 無料,タダ,安い,売り切れ,必須,必見,ポイン ト,スムーズ,混雑,役立つ,見所,渋滞,禁止, 裏道,近道,得点,注意,警告,ルール,防止, 便利,ベスト,穴場,損,ガラガラ,定番,対策 時間情報 春,夏,秋,冬,朝,昼,夕,夜 天気 晴れ,曇り,雨全180単語
‐失敗回避等に繋がる単語 例)注意書きにもあったのですが、トイレが狭く並ぶので 先に済ませましょう有用な情報の抽出
有用な情報 レビューの文 提案耳より お得耳より 耳よりキーワードシステムの流れ
2 月 12 日( 木) システムの流れ 有用な情報を抽出 レビューを文単位で分割 ある程度レアな情報を抽出 ユーザ 耳より情報の決定 目的の観光地 入力 耳より情報提示 レビューサイトから観光地のレビューを取得 システム ある程度レアな情報を抽出ある程度レアな情報の抽出
クラスタ毎にある程度 レアな情報の抽出 クラスタリング話題毎のお得情報
話題B 話題C 話題A 有用な情報 話題毎にお得情報が異なる 話題毎に分ける 抽出した有用な情報クラスタリング手法
抽出した有用な情報を形態素解析 名詞を用いてクラスタリングRepeated Bisection
データ集合を繰り返し2分割し,K-means法を実行する手法 「期間限定」などは名詞連結 短文にある程度適していると考えられる(※)クラスタリング手法 (※花井俊介,灘本明代,“酷似レシピ抽出のためのクラスタリング手法の提案”,DEIMForum2014F8-6,2014)ある程度レアな情報の抽出
関係ない レアな情報 公知 景色がよかった 天気が悪い ○○の場所からよく見えた 公知 ある程度レアな情報 話題と関係ない 高 低 類 似 度 観光地:スカイツリー 話題:景色 話題の中心との類似度がある程度低い文 ある程度レアな情報 中ある程度レアな情報の抽出
関係ない 公知 類似度:低 類似度:高 閾値α 閾値β レアな情報 閾値α~βの幅内の文 ある程度レアな情報 閾値α以上の文 公知な情報 閾値β以下の文 関係ない情報【景色】 0.951924「混んでいて景色を楽しめませんでした」 0.743811 「さすがの景色です」 0.716011 「一時的に雲が途切れてもどんよりした景色で残念でした」 ・ ・ ・ 0.551796 「ただ、11時頃登った際に見た景色には方角によって影ができていて、 珍しい写真が撮れました」 0.510831 「晴れた日には富士山も見え、夕焼け時間に展望台に登るととても 綺麗な景色が見えるのでとてもオススメです」 ・ ・ ・ 0.345296 「個人的には、東京タワーの方が好きでした」 0.283676 「でも見るだけでも価値はある建物ですね」 東京スカイツリー 高 低 類 似 度