• 検索結果がありません。

美味しさモデルと栄養状態を考慮した料理レシピ推薦システム

N/A
N/A
Protected

Academic year: 2021

シェア "美味しさモデルと栄養状態を考慮した料理レシピ推薦システム"

Copied!
36
0
0

読み込み中.... (全文を見る)

全文

(1)

観光地のレビューからの

耳より情報抽出手法

☆阪井 奎伍 甲南大学 灘本 明代 甲南大学

(2)

背景

旅行行こう!

温泉

景色

テーマパーク

郷土料理

(3)

背景

観光地の情報

旅行行こう!

慣れていない土地や観光地

快適

 もっと調べておけば

 実は…だった

後悔

(4)

背景

最寄り駅

営業時間

基本的な情報

(5)

地下鉄から乗り継いで、雨にも 濡れずに行けるので便利。 9時、10時ころには人が増えるので、8時の営業 開始と同時にチケット売り場に行った方がいい。 東京スカイツリー

お得な情報

背景

レビューサイト

(6)

取引先様に観光として連れて 行っていただきました。 東京スカイツリーに初めて行きました。 初めてスカイツリーを見に行きましたが とても高く圧倒されました。 皆がソロソロ飽きた今ごろになって ようやく足を運んでみました。

不要な情報

背景

東京スカイツリー

レビューサイト

(7)

押上駅が最寄です。 21時に最終入場です。 8時から入場できます。

基本的な情報

背景

東京スカイツリー

レビューサイト

(8)

お得な情報

感想や経験談

基本的な情報

関係ない情報

背景

レビューサイト

情報量が膨大

お得な情報が 埋もれている

(9)

「知って得した」 「参考になった」 と感じる情報

耳より情報

背景

お得な情報

目的

効率的な知識の獲得に繋がる 後悔のない快適な旅行を!

インターネット上の膨大な

観光地のレビューから耳より情報を抽出

(10)

耳より情報

有用な情報

 推薦している情報  新しい情報  流行りの情報 ‐耳よりキーワードを含む情報

耳より情報

有用な情報 ある程度レアな情報

(11)

耳より情報

ある程度レアな情報  あまり知られて いない情報

耳より情報

有用な情報 ある程度レアな情報 レアでない情報  よく知られている 情報  基本的な情報 レアすぎる情報  使える状況が 少なすぎる情報  関係のない情報

(12)

有用な情報を抽出

システムの流れ

レビューを文単位で分割 ある程度レアな情報を抽出 ユーザ 耳より情報の決定 目的の観光地 入力 耳より情報提示 レビューサイトから観光地のレビューを取得 システム 2 月 12 日( 木) システムの流れ レビューを文単位で分割

(13)

~~~~~~ ~~~~~~ ~~~~~~ ~~~~~~ ~~~~~~ ~~~

レビューを文単位で分割

2 月 12 日( 木) システムの流れ 経験談 耳より情報 感想 Aさんのレビュー 文単位で耳より情報を抽出

(14)

システムの流れ

2 月 12 日( 木) システムの流れ レアな情報の抽出ついて 有用な情報を抽出 レビューを文単位で分割 ある程度レアな情報を抽出 ユーザ 耳より情報の決定 目的の観光地 入力 耳より情報提示 レビューサイトから観光地のレビューを取得 システム 有用な情報を抽出

(15)

有用な情報の抽出

推薦しているレビューに 含まれるキーワード 抑止 状況説明 可能 不可能 気候  提案耳より  お得耳より  時間情報  天気情報 失敗談

(16)

有用な情報の抽出

提案耳より

‐相手に提案を促すような言葉 例)当日予約は相当並ぶので事前予約がおすすめです

お得耳より

‐お得感のある単語 例)カメラを持っていれば無料で撮影してくれます

時間情報

‐時間や季節を表す単語 例)夏は暑いので日焼け対策を

天気情報

‐天気や気候を表す単語 例)雨の日限定で記念バッジをもらえます

(17)

有用な情報の抽出

観光地を対象 分類 耳よりキーワード例 提案耳より おすすめ,方がいい,良いと思,良いかと,良いの では,良いでしょう,良くない,すべき,するべき, いかが,間違いない,よさげ,なので,だから,し まった,混んで,困る,出来る,出来ま お得耳より 無料,タダ,安い,売り切れ,必須,必見,ポイン ト,スムーズ,混雑,役立つ,見所,渋滞,禁止, 裏道,近道,得点,注意,警告,ルール,防止, 便利,ベスト,穴場,損,ガラガラ,定番,対策 時間情報 春,夏,秋,冬,朝,昼,夕,夜 天気 晴れ,曇り,雨

全180単語

‐失敗回避等に繋がる単語 例)注意書きにもあったのですが、トイレが狭く並ぶので 先に済ませましょう

(18)

有用な情報の抽出

有用な情報 レビューの文 提案耳より お得耳より 耳よりキーワード

(19)

システムの流れ

2 月 12 日( 木) システムの流れ 有用な情報を抽出 レビューを文単位で分割 ある程度レアな情報を抽出 ユーザ 耳より情報の決定 目的の観光地 入力 耳より情報提示 レビューサイトから観光地のレビューを取得 システム ある程度レアな情報を抽出

(20)

ある程度レアな情報の抽出

クラスタ毎にある程度 レアな情報の抽出 クラスタリング

話題毎のお得情報

話題B 話題C 話題A 有用な情報 話題毎にお得情報が異なる 話題毎に分ける 抽出した有用な情報

(21)

クラスタリング手法

抽出した有用な情報を形態素解析 名詞を用いてクラスタリング

Repeated Bisection

データ集合を繰り返し2分割し,K-means法を実行する手法 「期間限定」などは名詞連結 短文にある程度適していると考えられる(※)クラスタリング手法 (※花井俊介,灘本明代,“酷似レシピ抽出のためのクラスタリング手法の提案”,DEIMForum2014F8-6,2014)

(22)

ある程度レアな情報の抽出

関係ない レアな情報 公知 景色がよかった 天気が悪い ○○の場所からよく見えた 公知 ある程度レアな情報 話題と関係ない 高 低 類 似 度 観光地:スカイツリー 話題:景色 話題の中心との類似度がある程度低い文 ある程度レアな情報 中

(23)

ある程度レアな情報の抽出

関係ない 公知 類似度:低 類似度:高 閾値α 閾値β レアな情報 閾値α~βの幅内の文 ある程度レアな情報 閾値α以上の文 公知な情報 閾値β以下の文 関係ない情報

(24)

【景色】 0.951924「混んでいて景色を楽しめませんでした」 0.743811 「さすがの景色です」 0.716011 「一時的に雲が途切れてもどんよりした景色で残念でした」 ・ ・ ・ 0.551796 「ただ、11時頃登った際に見た景色には方角によって影ができていて、 珍しい写真が撮れました」 0.510831 「晴れた日には富士山も見え、夕焼け時間に展望台に登るととても 綺麗な景色が見えるのでとてもオススメです」 ・ ・ ・ 0.345296 「個人的には、東京タワーの方が好きでした」 0.283676 「でも見るだけでも価値はある建物ですね」 東京スカイツリー 高 低 類 似 度

(25)

クラスタ数の決定

30~70で試した結果 50の結果が最も高かった クラスタ数50 適合率 クラスタ数 データ数 ディズニー データ数 スカイツリー データ数 首里城 データ数 時計台 データ数 鹿苑寺 30 187 0.422 307 0.414 192 0.417 128 0.305 90 0.267 40 217 0.470 354 0.412 204 0.431 139 0.309 97 0.320 50 243 0.465 371 0.418 209 0.450 152 0.368 100 0.350 60 261 0.418 475 0.322 217 0.406 145 0.366 91 0.330 70 268 0.392 395 0.408 226 0.367 136 0.338 107 0.271  東京ディズニーランド  東京スカイツリー  首里城公園 データ: 242件 360件 209件  札幌市時計台  鹿苑寺(金閣寺) 151件 99件 クラスタ数:1つの観光地に対する話題の数

(26)

閾値

α,βの決定

閾値0.55が最も有用な 情報を含む割合が多い 閾値α = 0.6 閾値β = 0.5 閾値 ディズニー スカイツリー 首里城 時計台 鹿苑寺 0.5 0.417 0.295 0.457 0.348 0.413 0.55 0.429 0.326 0.432 0.467 0.488 0.6 0.412 0.488 0.442 0.341 0.395 0.65 0.412 0.425 0.405 0.395 0.341 0.7 0.355 0.406 0.286 0.317 0.268 0.75 0.250 0.400 0.300 0.231 0.256 0.8 0.143 0.308 0.250 0.188 0.314 閾値:0.5~0.8 閾値α 閾値β レアな文 適合率 類似度:低 類似度:高 正解データ: 公式ページにない かつ 関係のある情報

(27)

評価実験

 被験者:20代男女8名  目的: 東京ディズニーランド 東京スカイツリー 首里城公園 札幌市時計台 鹿苑寺(金閣寺)  データ: 242件 360件 209件 151件 99件 ① 話題毎にクラスタが分けられているか ② 観光地のレビューから耳より情報を抽出 できたかどうか

(28)

評価実験

 観光地に行く予定を立てる際の情報収集をする

実験条件

 耳より情報かそうでないか2択で判断  データの観光地に詳しくない人 夏は相当暑いので日焼け対策を  時間情報を考慮しないで判断

(29)

結果と考察

①話題分け

全体的に適合率が高く3つの 観光地では0.9を超えた 話題と一致してない文は クラスタ内の類似度が低かった 観光地 適合率 東京ディズニーランド 0.855 東京スカイツリー 0.841 金閣寺 0.927 首里城公園 0.928 札幌市時計台 0.914 平均 0.893  

Repeated Bisection法でのクラスタリングは

精度がよかった

正解データ: 話題と抽出した情報の 内容が一致している

(30)

結果と考察

②耳より情報を抽出

ユーザの 旅行に対する関心や 各々の観光地に対する関心 に左右される ユーザによって適合率に 大きな差が出た ユーザによって耳より情報と 感じる文が異なっていた 東京スカイツリー 都心の交通量の減る休日や空気が澄む冬 の晴れ、工場が止まるお正月なら綺麗に見 える確率が高いと思いました 半数が耳より 情報と感じた

(31)

良い例と悪い例

 無料で写真をとってくれるサービスもあるので、 カメラをお忘れなく

良い例

東京スカイツリー  当日予約をすると相当並ぶのでクレジット カードを片手にネットで事前予約することを お勧めします

(32)

良い例と悪い例

悪い例

東京スカイツリー  30分ごとの入場だったので、思ったほどの混雑 で見れないとかはなかったのですが、ムサシの レストランは大混雑でした 何時頃の情報かわからない  というのも個人で事前購入した場合でも 当日はかなり並ばなければいけないです 前後の文がないと意味が通じない

(33)

良い例と悪い例

 子供が熱を出してまった時は医務室まで 完備されてますので安心です

良い例

東京ディズニーランド  一番高い席はS席で4500円くらいだったと 思いますが、どの席でも舞台は見れますし、 キャラクターは絶対来てくれるのでB席でも 十分楽しめましたよ

(34)

良い例と悪い例

悪い例

 クリスマスのディズニーランドとは考えただけでも 恐ろしいですが、覚悟の上で回りましたが思った よりはスムーズに回れました 個人の感想  シンデレラ城の上半分位しか見えないし、 大混雑なので精神的なストレスがたまる し、何にも楽しめません 前後の文がないと意味が通じない 東京ディズニーランド

(35)

まとめ

耳より情報を提示することで初めて行く 旅行先の計画を立てる手助けをできる 今後の課題 レビューサイトから耳より情報の抽出手法を提案した  ある程度レアな情報抽出のロジック改善  ユーザの興味を考慮したパーソナライゼーション  ユーザインターフェースの開発  耳よりキーワードの改善

(36)

まとめ

耳より情報を提示することで初めて行く 旅行先の計画を立てる手助けをできる 今後の課題 レビューサイトから耳より情報の抽出手法を提案した  ある程度レアな情報抽出のロジック改善  ユーザの興味を考慮したパーソナライゼーション  ユーザインターフェースの開発  耳よりキーワードの改善

参照

関連したドキュメント

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

題が検出されると、トラブルシューティングを開始するために必要なシステム状態の情報が Dell に送 信されます。SupportAssist は、 Windows

「系統情報の公開」に関する留意事項

浮遊粒子状物質の将来濃度(年平均値)を日平均値(2%除外値)に変換した値は 0.061mg/m 3 であり、環境基準値(0.10mg/m

Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google

彩度(P.100) 色の鮮やかさを 0 から 14 程度までの数値で表したもの。色味の

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報