行動名をクエリとした地理情報検索

(1)

DEIM Forum 2016 H5-6

行動名をクエリとした地理情報検索

松村

優也

†

大島

裕明

††

田中

克己

††

†

京都大学工学部情報学科

〒 606-8501 京都府京都市左京区吉田本町

††

京都大学大学院情報学研究科

〒 606-8501 京都府京都市左京区吉田本町

E-mail:

†{

matsumura,ohshima,tanaka

}

@dl.kuis.kyoto-u.ac.jp

あらまし本研究では，行動名をクエリとし，その行動が可能であるような地物の検索を行う手法を提案する．その

ような検索を実現するため，本研究では，Q&A サイトのコンテンツをマイニングし，

「ある場所である行動を行うこと

ができる」という行動情報を抽出する．Google Maps のような従来の地理情報検索システムは，場所を表す語や地物

の位置・住所をクエリとして地物を検索するものである．地物を検索するユーザの意図の一つに，ある行動を行える

地物を検索したいというものが考えられる．通常，

「コーヒーを飲む」ことができる地物を探している際は「喫茶店」，

「本を買う」ことができる地物を探している際は「本屋」のような，行動が行える場所を表す語を思い浮かべる．そし

て，そのような場所を表す語をクエリとして検索を行うことで，行動が行える地物を得る．ところが，行動の中には

「時間をつぶす」や「ストレスを発散する」のように，行動が行える場所を表す語を思い浮かべにくいものも存在す

る．また，行動が行える場所を表す語を思い浮かべられても，検索を行いたい地域においてそのような地物が存在し

なければ，地物を見つけることができない．本研究では，これらの問題を解決するため，Q&A サイト上にある行動情

報に着目し，行動情報を抽出する．また，行動が行える地物の類似性に着目した行動情報の拡張を行う．そうして得

られた行動情報に基づき，行動名を，その行動が行えるような場所を表す語へと変換する．この場所を表す語をクエ

リとして用いることで，行動名をクエリとした地理情報の検索を実現する．

キーワード地理情報検索，Q&A サイト

1. はじめに

地物に関する検索において，Google Maps（注 1）_{などの地図} ベースで情報検索を行う地理情報検索システムが普及している．地理情報検索システムでは，主に，地物を表す語が検索クエリとして用いられる．たとえば，「京都タワー」のような具体的な地物を表す語で検索すると，地図上に京都タワーの位置が表示され，それに関連するウェブページへのリンクも表示される．「京都府京都市吉田本町」のように，地物の住所を検索クエリとして用いることも一般的に行われる．また，「喫茶店」や「コンビニエンスストア」のような，ある種の地物を表す語を検索クエリとして用いることもできる．このような検索クエリの場合，検索結果としてクエリの語と関連が強い地物が地図上に表示される．地理情報検索システムを利用するユーザの検索意図の一つには，ある行動が行える地物を検索したいというものがある．たとえば，「コーヒーを飲む」，「本を買う」，「時間をつぶす」，「ストレスを発散する」などのような行動を想定する．そして，そのような行動が行える地物を知ろうとするものである．本研究では，そのような「ある行動が行える地物」を検索することを目的とする．従来の地理情報検索システムにおいては，「コーヒーを飲む」や「本を買う」というような行動そのものを表す行動名をク

（注 1）：Google Maps: https://maps.google.co.jp

エリとして検索を行った場合，適切な検索結果を得ることはできない．通常，ある「行動」が行える地物を検索したい場合，ユーザはその行動名を検索クエリとはしない．代わりに，その行動が行える地物を表す語を検索クエリとして用いる．たとえば，「コーヒーを飲む」や「本を買う」などの行動を行いたい場合にはそれぞれ，「喫茶店」，「本屋」といった地物を表す語を思い浮かべ，これらの語を検索クエリとして用いることが考えられる．実際，これらの検索を行った場合，それぞれの行動が行える地物が検索結果として得られる．しかし，従来の地理情報検索システムにおいては，うまく地理情報検索を行うことができない2つの場合が考えられる． 1つは，「時間をつぶす」や「ストレスを発散する」などのように，行動が行える地物を表す語を思い浮かべることが困難である場合である．このような場合，ユーザは地理情報検索システムに適切なクエリを入力することができないため，うまく地物の検索を行うことができない．もう1つは，地物を表す語を思い浮かべることができても，その語が表す地物が検索している地域において存在しないという場合である．たとえば，「デートする」ことができる地物を表す語として，「カフェ」を思い浮かべたとする．しかし，求めている地域に「カフェ」がなければ検索を行っても結果は得られない．そこで本研究では，これらの場合でも行動が行える地物の検索を可能にするため，「時間をつぶす」のような行動名を入力とし，たとえば京都市河原町付近であれば，「スターバックス・

(2)

コーヒー京都三条大橋店」や「ラウンドワン京都河原町店」のようなその行動が行える地物を出力するという課題に取り組む．本研究では特に，この課題を解決するため，「時間をつぶす」のような行動名を入力とし，「喫茶店」や「ボーリング場」のようなある種の地物を表す語を出力するという課題に取り組む．本稿では，このようなある種の地物を表す語を「地物クラス」と言う．このように，行動名を地物クラスへと変換し，得られた地物クラスをクエリとして，既存の地理情報検索システムにおいて地物の検索を行う．すると，その行動が行えるような地物が検索結果として得られると考えられる．行動名を地物クラスへと変換するという問題に取り組むために，本研究では，Yahoo!知恵袋（注 2）のような，Q&Aサイト上にある投稿に着目する．このようなQ&Aコーパス上には，「ある行動が行える地物を求めている」というような質問がある．たとえば，「時間をつぶす」ことができる地物を求めているユーザによる，「時間をつぶせる場所知りませんか？」というような質問が存在する．この場合，この質問の回答を参照することで，「時間をつぶす」ことができる地物クラスに関する情報を手に入れられると考えられる．しかし，単純にQ&Aコーパスを利用するのみでは不十分な場合が存在する．そこで本研究では，行動名ごとの変換できる地物クラスの類似性に着目することで，様々な行動間の関係を抽出する．抽出した行動間の関係に基づき，変換できる地物クラスの候補の拡張を行う．たとえば，「時間をつぶす」という行動と「暇をつぶす」という行動が同義行動である場合，「暇をつぶす」ことができる地物クラスにおいては，「時間をつぶす」こともできると考えられる．本研究では，行動名を地物クラスへと変換する手法を提案し，行動名を入力とした，行動が行える地物の検索を実現する．提案手法は，まず，Q&Aサイト上にあるユーザの投稿から行動名と行動が行える地物クラスの組からなる行動情報を抽出する．得られた行動情報を用いることで，入力された行動名を地物クラスへと変換するまた，行動名を変換できる地物クラスの類似性に着目することで，同義行動や含意行動のような行動間の関係を抽出する．次に，得られた行動間の関係に基づき，行動情報の拡張を行う．そうして拡張した行動情報を用いた行動名から地物クラスへの変換も考える．変換した地物クラスを検索クエリとして，既存の地理情報検索システムを用いることで，行動が行える地物の検索を行う．この手法により，「時間をつぶす」といった行動名をクエリとして受け取り，その行動が行える地物の検索が可能となる．本稿の構成は以下の通りである．2章では，関連研究を紹介する．3章では，本研究で用いる概念について説明を行う．4章では，行動情報の抽出方法について述べる．5章では，行動名から地物クラスへの変換について3種類の手法を述べる．6章では，提案手法に関する実験と評価について述べる．7章では，まとめと今後の課題について述べる．（注 2）：Yahoo!知恵袋: http://chiebukuro.yahoo.co.jp/

2.

3. 概念の説明

本章では，本研究の基盤となる概念について説明する．まず，本研究における場所を表す語の定義についてそれぞれ述べる．次に，本研究において扱う行動情報の定義について述べる． 3. 1 場所を表す語本稿では，場所を表す際に以下の3つの語を用いる．（1）地域：ある一定の範囲の場所を表す語例：「東京都」，「京都市」（2）地物：実世界の具体的なある場所を表す語例：「スターバックスコーヒー京都三条大橋店」，「紀伊国屋書店梅田本店」（3）地物クラス：ある種の地物を表す語例：「喫茶店」，「本屋」本稿では以上に定義した語を用いて場所を表す語を表現する．本研究の目的は，入力された行動名を「地物クラス」へと変換することで，ある「地域」において行動が行える「地物」の検索を行うことである． 3. 2 行動情報本研究では，人間の行動情報は以下の2つの組から成立するものであると定義する．（1）地物クラス：行動が行える地物クラス．（2）行動：人間が行う動作，または動作とその対象．本研究では，地物クラス要素を以下のように表現する． g =地物クラスたとえば，「喫茶店」という地物クラスにおいて行動が行える場合，g =喫茶店のように地物クラス要素を表現する．行動要素はさらに細分化され，以下のような2属性の組で表現できるものとする. a = (対象，動作) 本研究では，動作属性を，「動詞」または「サ変名詞」+「する」と定義する．「サ変名詞」とは，「勉強」や「食事」のような，動詞「する」に接続して動詞となりうる名詞のことである．また，対象属性は，「コーヒーを飲む」の「コーヒー」や，「時間をつぶす」の「時間」のように，動作の対象となる語を表す．なお，本研究においては(コーヒー,飲む)や(ストレス,発散する)のような，ある地物において動作を実行するという性質を持つものを行動として扱う．たとえば，(京都,行く)や(喫茶店, 訪れる)のような場所の移動を表す行動は扱わないものとする．これは本研究が，ある行動が行える地物を検索することを目的としているため，そもそも地物に関する情報を含むような行動は本研究の趣旨には合わないからである．表 1 ある行動が行える地物を求めている質問の抽出パターン検索フレーズ抽出される文章の例場所 (を)?探して「場所を探しています」，「場所を探しているのですが」場所 (を)?教えて「場所教えて下さい」，「場所を教えてくれませんか」場所 (を)?知っ「場所知りませんか」「場所知っていたら」場所 (を)?ご存知「場所ご存知でしたら」，「場所をご存知なら」場所 (が)?あ「場所があったら」，「場所あれば」表 2 抽出されたの質問の例 (1)琵琶湖で BBQ 出来る場所を探しています！ (2)愛知県で楽器の練習ができる場所を探しています。 (3)東京都内で時間をつぶせる場所を探しています． (4)京都で紅葉が見れるオススメの場所があれば教えてください。また，(None,食べる)や(None,買う)のような，対象属性がない，動作属性のみからなる行動も本研究では扱わないものとする．これは，動作属性のみからなる行動は抽象度が高いものが多く，それだけでは行動の意味が捉えにくいと考えたからである．たとえば，「喫茶店でコーヒーを飲んだ．」という文章からは， g =喫茶店, a = (コーヒー,飲む)という行動情報を抽出することができる．「公園で野鳥を観察した」という文章からは， g =公園, a = (野鳥,観察する)という行動情報を抽出することができる．

4. 行動情報の抽出

本研究の目的は，行動名を地物クラスに変換することによって，行動名による行動が行える地物の検索を実現することである．行動名を地物クラスへと変換するために，本研究ではQ&A コーパスに着目する．Q&Aコーパスには，「時間をつぶすことができる場所を知りませんか？」というような，ある行動が行える地物を求めているような質問がある．また，その回答には，その行動ができる地物に関する情報が記載されていると考えられる．そこで，そのような質問と回答を分析することで，行動名をその行動が可能な地物クラスへと変換する．本章では，そのような変換を行うため，Q&Aコーパスを解析し，行動名とその行動が行える地物クラスから成る行動情報を抽出する手法について述べる．本手法では，行動情報を抽出するため，対象となる質問に対し以下のような前処理を施す．まず，質問を読点や記号など文章の区切りとなる位置で分割する．次に，それぞれの文に対して形態素解析と係り受け解析を行う．こうして，各文は閉路のない有向グラフで表現される．この有向グラフの各ノードは文の各文節に対応しており，ノードは複数の単語のシーケンスで構成される．また，各エッジは文節の係り受け関係に対応している．さらに，有向グラフを複数の有向道に分解することによって，1文を複数の有向道の集合で表現する. 4.2節では，この処理で得られた各有向道とあらかじめ人手で用意しておいた

(4)

表 3 質問からの行動要素の抽出パターンパターン対象動作 ⟨[x/名詞][を/助詞]⟩?[y/動詞][こと/名詞][が/助 詞][できる/動詞][場所/名詞] x y ⟨[x/名詞][を/助詞]⟩?[y/名詞・サ変接続][する/動 詞][こと/名詞][が/助詞][できる/動詞][場所/名詞] x yする [x/名詞][が｜の/助詞][見れる｜観れる｜みれる/動詞][場所/名詞] x みる ⟨[x/名詞][を/助詞]⟩?[y/動詞][れる｜られる/動詞・ 接尾][場所/名詞] x y ⟨[x/名詞][の/助詞]⟩?[y/名詞・サ変接続][が/助 詞][できる/動詞][場所/名詞] x yする ⟨[x/名詞][を/助詞]⟩?[y/名詞・サ変接続][できる/ 動詞][場所/名詞] x yする [x/名詞]+[が/助詞]?[できる/動詞][場所/名詞] x する ⟨[x/名詞][を/助詞]⟨?[y/動詞][場所/名詞] x する ⟨[x/名詞][を/助詞]⟨?[y/名詞・サ変接続][する/動 詞][場所/名詞] x yする表 4 行動要素として扱わない移動を示す動詞行く来る訪れる訪問する入る出る着く到着する帰るぶらつくうろつくまわるおもむく寄るのぼる向かう抽出パターンとのマッチングを行うことで，質問から行動名を，その回答から地物クラスを抽出し，行動情報を得る． 4. 1 ある行動が行える地物を求めている質問の抽出大量のQ&Aコーパス上にある質問の中から，「ある行動が行える地物を求めている」質問を抽出する必要がある．このような質問に共通する特徴として，「∼できる場所を探しています」や「∼するところありませんか」のような，言語パターンが多く見られる．そこで本手法では，表1に示すパターンで質問をフレーズ検索することによって，そのような質問を抽出した．ただし，「場所」としている部分は，同様の意味で使われている，「ところ」，「とこ」，「店」,「施設」に置き換えて検索を行った結果も考えた．また，「(を)?」というのは，「を」がある場合とない場合の両方の言語パターンを検索に用いたことを表す．こうして抽出された「ある行動が行える地物を求めている」質問の例を表2に示す． 4. 2 質問から行動要素の抽出次に，抽出した質問を形態素解析と係受け解析して得られた各有向道に対し，人手で作成した抽出パターンとのマッチングを行うことで，行動要素を抽出する．質問からの行動要素の抽出パターンを正規表現で表したもののすべてを表3に列挙する．行動要素の抽出においても，ある行動ができる場所を求める質問中では，「∼できる場を探しています」などのような特徴的な表現が使われることを利用した．パターン中の「a/b」という表現は，「bという品詞のaという語」という意味を表している．たとえば，「こと/名詞」という表現は，「名詞である“こと”という語」を表している．パターン中の変数x，yに当てはまる単語は抽出され，それぞれ，対象，動作属性に格納される．表 5 YOLPで登録された業種コードの例業種業種コードラーメン 0106001 喫茶店 0115002 マンガ喫茶 0115011 デパート，百貨店 0204001 コンビニ 0205001 キャンプ場 0303006 映画館 0305001 表 6 抽出された回答の例 (1)調べてみると、マイアミ浜オートキャンプ場などがありました． (2)カラオケはいかがですか？楽器練習の場所として勧めているところもありますよ。 (3)歌舞伎町まで歩けばサウナがあります．マンガ喫茶もたくさんあります． (4)京都市内では世界遺産の下鴨神社などが有名です．ただし，本研究では移動を表すような行動を扱わない．そのため，表4に示す動詞が動作属性にあたる場合は，行動要素を抽出しないこととする．表2の例に対して，表3で示した行動要素の抽出パターンを適用した場合，以下のような行動要素が抽出される．（1） a = (BBQ,する) （2） a = (楽器,練習する) （3） a = (時間,つぶせる) （4） a = (紅葉,みる) 4. 3 回答からの地物クラス要素の抽出回答から地物クラス要素を抽出するに際し，地物クラスのリストをあらかじめ用意した．そして，リスト内の地物リストが回答中に存在すれば，それを地物クラス要素として抽出した．地物リストの作成にはYahoo! JAPANの提供する，Yahoo! Open Local Platform（注 3）₍_以下_{, YOLP)} _{を利用した．}_YOLP

の施設情報には，施設の種類を分類できるように業種コードが登録されている．その一部を表5に示す．「デパート，百貨店」のように，一つの業種コードに複数の種類の業種が登録されている場合，地物クラスのリストには別々に登録した．本研究では，こうして得られた業種697種を用いて地物クラスのリストを得た．表6に，表2の質問に対する回答の例を示す．この例に対して本手法を適用した場合，以下のような地物クラス要素が抽出される．ただし，(3)のように複数の地物クラスが同一の回答中に存在する場合，すべての地物クラスを抽出する．（1） a =キャンプ場（2） a =カラオケ（3） a =サウナ, g =マンガ喫茶（4） a =神社

（注 3）：Yahoo! Open Local Platform: http://developer.yahoo.co.jp/webapi/map/

(5)

表 7 行動-地物クラス行列 g1 g2 · · · gk · · · gn a1 s11 s12 · · · · . . . a2 s21 s22 · · · · . . . . . . · · · · ... aj · · · sjk · · · . . . . . . · · · · . . . am · · · smn

5. 行動名から地物クラスへの変換

本章では，Q&Aコーパスから抽出した行動情報に基づく，行動名から地物クラスへの変換手法について述べる．また，単純にQ&Aコーパスから行動情報を抽出するのみでは不十分な場合がある．そのため，変換できる地物クラスの類似性に着目した行動情報の拡張を行い，その場合の行動名から地物クラスへの変換手法についても述べる． 5. 1 直接法 4章では，ある行動が行える地物を求めているような質問から行動要素を，その回答から地物クラス要素を抽出することで， Q&Aコーパス上の行動情報を抽出した．この行動情報を集約して，表7のような行動-地物クラス行列を作成する．ここで，全行動集合をA ={a1, a2, ..., am}，全地物クラス集合をG ={g1, g2, ..., gn}とすると，aj∈ A, gk∈ Gである．ただし，j = 1, 2, ..., m, k = 1, 2, ..., nである．また，行列中の成分sjkは，行動ajを抽出したすべての質問について，その回答から地物クラスgkが抽出された回数を表す．行動-地物クラス行列中で成分sjk> 0であれば，行動ajを表す行動名は地物クラスgkにおいて可能であると，少なくとも１回はQ&Aコーパス上で記述されていることになる．すなわち，この行動-地物クラス行列を利用すれば，ある行動名をある地物クラスへと変換することができる．たとえば，行動-地物クラス行列の一部に表8のような部分があるとする．この場合，(時間,つぶす)の行に注目すると，「時間をつぶす」という行動名を「喫茶店」や「カフェ」という地物クラスへと変換することができる．以上のような，単純にQ&Aコーパスから抽出した行動情報のみを用いた，行動名から地物クラスへの変換手法を，「直接法」と呼ぶ．直接法により，ある行動名を地物クラスへと変換し，変換した地物クラスをクエリとして検索を行うことで，行動名を入力とした行動が行える地物の検索が可能となる．しかし，直接法では不十分な場合がある．その問題について次節で述べる． 5. 2 直接法の問題現段階の行動-地物クラス行列は，質問中から行動名を，その回答中から地物クラスを抽出し，その抽出された回数をそれぞれの成分の値としている．しかし，行動名や地物クラスがQ&A コーパス内できちんと明記されていない場合も多い．そのため，表 8 行動-地物クラス行列の例 · · · 喫茶店カフェカラオケ · · · . . . · · · · (時間，つぶす) · · · 3 4 0 · · · (暇，つぶす) · · · 2 2 1 · · · . . . · · · · ある行動についての行動情報が少なくなってしまうこともあり，現段階の行動-地物クラス行列はスパースである．よって，現段階の行動-地物クラス行列を用いるのみの直接法では，行動名から地物クラスへの変換が不十分な場合がある．たとえば，表8の例においては，直接法では「時間をつぶす」という行動名を「カラオケ」という地物クラスに変換することはできない．しかし，「時間をつぶす」という行動は「カラオケ」で可能であると考えられるため，「時間をつぶす」から「カラオケ」への変換は行えるべきである．ここで，「暇をつぶす」という行動名を「カラオケ」という地物クラスに変換することは可能であることに注目する．この際，「時間をつぶす」と「暇をつぶす」が同義行動であると考えると，「時間をつぶす」という行動名を「カラオケ」という地物クラス名に変換することができる．このように同義行動に注目することで，ある行動の変換できる地物クラスの候補を拡張することができる．また，たとえば「歌を歌う」という行動を行えば「ストレスを発散する」という行動を行ったことになるという含意関係が成立すると考えた場合，「歌を歌う」ことができる地物においては，「ストレスを発散する」こともできるというような関係も考えられる．このように，行動間の関係を利用すると，変換できる地物クラスの候補を拡張することができる場合がある．そこで本研究では，このような同義行動や含意行動を考慮した変換できる地物クラス候補の拡張による行動情報の拡張を行い，行動-地物クラス行列の値を補完した場合の行動名から地物クラスへの変換手法を提案する．本手法では，それぞれの行動について，その行動名が直接法によって変換できる地物クラスの類似性に着目する．2つの行動について，それらが同義行動であれば，それらの行動名が変換できる地物クラスに類似性が見られると考えられる．また， 2つの行動が含意関係にあるならば，それらの行動名が変換できる地物クラスの一部に類似性が見られると考えられる．そこで本手法では，それぞれの行動についてその行動名が変換できる地物クラスの類似性に着目し，行動-地物クラス行列の値の補完を行う．そうすることで，同義行動や含意行動を考慮した行動名から地物クラスへの変換を行う．提案手法は2つある．1つは，情報検索の分野でよく用いられる，LSA(Latent Semantic Analysis；潜在意味解析) [2]を行動-地物クラス行列に適用する方法である．もう１つは，行動ご

(6)

とに，その行動名を変換できる地物クラスに着目した類似度を算出することで，類似する行動の行の成分の値をもとの行動の行の成分に反映させる方法である．以下の節では，それぞれの手法について詳しく述べる． 5. 3 LSA 法本節では，LSAを用いた行動-地物クラス行列の値の補完を行った場合の行動名から地物クラスへの変換手法について述べる．LSAとは，単語とそれが現れる文書の関係を統計的に評価する手法であり，以下のような操作を行う．まず，文書とその文書中に含まれる単語とその頻度を基に作成した共起行列Aに対してSVD(Singular Value Decomposition；特異値分解)を利用することで，m×n行列Aを次のような３つの行列U, S, V に分解する．ただし，r = min(m, n), U : m× r, S : r × r, V : n × r である． A = U SVT 次に，SVDによって分解された行列に対し，上位r個の特異値のみを用いて，U SVTを掛け合わせ，近似行列Arを得る．この近似行列では，重要度の低い情報を消去することによってより関連度の強い単語ベクトルが同一次元に縮退され，類似した値に近似される．こうすることで，間接的に関連のある単語間においても高い類似度を得ることができる．本手法では，行動-地物クラス行列を，行動と地物クラスを元にした共起行列と考え，LSAを適用する．そうすると，間接的に関連のある地物クラス間において高い類似度が算出され，関連しているにも関わらず値が0であった成分にも類似行動を考慮した値が挿入される．こうして値が補完された行動-地物クラス行列に対して，直接法と同様に成分の値が1以上である行の行動と列の地物クラスに着目することで，行動名から地物クラスへの変換を行う．この手法を本稿では「LSA法」と呼ぶことにする． 5. 4 Top-k 法本節では，行動ごとの行動名を変換できる地物クラスに着目した類似度を算出することによる，行動-地物クラス行列の値の補完を行った場合の行動名から地物クラスへの変換手法について述べる．まず，行動-地物クラス行列の各行に注目し，行動ごとに以下のようなベクトルを得る． aj= (sj1, sj2, ..., sjn) ただし，j = 1, 2, ..., m 次に，ベクトル間の類似度を求める．類似度の算出にはコサイン類似度を用いた．あるベクトルaj に対し，ベクトル ai(1 <= i <= m, i |= j)との類似度を算出する．そのうち類似度が高かった上位３つのベクトルax, ay, az(1 <_{= x <}_{= m, 1 <}₌ y <_{= m, 1 <}_{= z <}_{= m, x |}= y |= z |= j)について， a′j= aj+ ax+ ay+ az となるようなベクトルを得る．この操作を，すべてのaj(j = 1, 2, ..., m)について行い，ベクトルa′j(j = 1, 2, ..., m)を得る．表 9 Yahoo!知恵袋から抽出された行動 (抽出回数上位 10 件) 順位行動 1 (食事, する) 2 (ランチ, する) 3 (服, 売る) 4 (ランチ, 食べる) 5 (グッズ, 売る) 6 (買取, する) 7 (個室，ある) 8 (バーベキュー, する) 9 (在庫, する) 10 (時間, 潰せる) こうして新たに得られたベクトルを用い，新しく行動-地物クラス行列を得る．本手法では，行動-地物クラス行列の各行ごとの類似度を求めることで，変換できる地物クラスが類似する行動を求めた．そして，変換できる地物クラスが類似する行動どうしは，同義行動や含意行動の性質を持つと考えた．類似する行動の行の成分の値を，もとの行動の行の成分の値に加えることで，行列の値の補完を行い，行動情報の拡張を行った．こうして値が補完された行動-地物クラス行列に対して直接法と同様に，行動名から地物クラスへの変換を行う．この手法を本稿では「Top-k法」と呼ぶことにする．

6. 実

験

本章では，提案手法を用いて行った実験とその評価について述べ，結果についての考察を行う．本実験の目的は，Q&Aコーパスより抽出した行動情報に基づく，行動名から地物クラスへの変換により，ある行動が行える地物の検索を行えるかどうかを検証することである． 6. 1 データセットとパラメータの設定行動情報の抽出に際して，Yahoo!知恵袋の2014年の質問と回答のセット（質問9,759,140件，回答224,969,787件）を用いた．文の形態素解析には，形態素解析エンジンMeCab（注 4）_を利用した．また，係受け解析には，日本語係受け解析器CaboCha（注 5）を利用した． 4章で述べたQ&Aコーパスからの行動情報の抽出を行った結果，Yahoo!知恵袋から抽出できた行動は全部で15,926種類であった．そのうち，行動-地物クラス行列の作成には，3回以上抽出された行動1,435件を用いた．地物クラスはYOLPに登録されている697件を用いた．表9に本手法によりYahoo!知恵袋から抽出された行動とその件数の上位10件を示す．また，LSA法では上位200個の特異値を用いて次元圧縮を行った． 6. 2 評価方法 5章で提案した行動名から地物クラスへの変換手法である直（注 4）：MeCab: http://code.google.com/p/mecab/ （注 5）：CaboCha: http://code.google.com/p/cabocha/

(7)

表 10 評価クエリ評価クエリ (時間, 潰せる) (時間, つぶせる) (サプライズ, する) (星, 見える) (勉強, する) (暇つぶし, する) (花見, する) (自然, 感じる) (イチャイチャ, する) (デート, する) 表 11 評価結果評価クエリ直接法 LSA法 Top-k法 (時間, 潰せる) 0.6 0.5 0.4 (時間, つぶせる) 0.6 0.3 0.5 (サプライズ, する) 0.4 0.4 0.5 (星, 見える) 0.2 0.2 0.3 (勉強, する) 0.3 0.3 0.1 (暇つぶし, する) 0.6 0.4 0.6 (花見, する) 0.2 0.0 0.2 (自然, 感じる) 0.1 0.2 0.2 (イチャイチャ, する) 0.2 0.3 0.4 (デート, する) 0.6 0.3 0.7 平均 0.38 0.29 0.39 接法，LSA法，Top-k法の3種類について，それぞれが変換できる地物クラスを比較した． Q&Aコーパスから抽出された行動名のうち，行動が行える地物クラスを思い浮かべにくいと人手で判別したものの中で，抽出回数が上位10件のものを評価クエリとして採用した．評価に用いるクエリを表10に示す．本評価手法では，行動名から地物クラスへの変換手法によって評価クエリを変換できる地物クラスの中でも，行動-地物クラス行列中で評価クエリの行の成分の値が上位10件である列の地物クラスについて，行動が行える地物を検索できるかどうかを人手で評価する．すべての評価クエリについて上記の処理を行い，正しい地物クラスの割合を精度とする．評価実験は，それぞれの評価クエリに対し，直接法，LSA法， Top-k法の3種類の変換手法を用いた場合について実施する． 6. 3 結果本節では，実験の結果について述べる．実験結果を表11に示す．また，評価クエリ(暇つぶし,する) と(デート, する)における出力をそれぞれ表12と表13に示す．地物クラスの前に“＊”がついているものは，今回正解とした地物クラスを表している．実験の結果，Top-k法が最も高い精度を示した．一方で，LSA 法は最も精度が低いという結果であった．LSA法においては， 2つのクエリでのみ，直接法と比べて精度の向上が確認されたが，5つのクエリにおいては，精度の低下が確認された．一方で，Top-k法においては，5つのクエリで，直接法と比べて精表 12 出力：評価クエリ (暇つぶし, する) 順位直接法 LSA法 Top-k法 1 駅駅駅 2 ＊デパート＊デパート＊カフェ 3 バスベビー用品バス 4 ＊映画館＊カラオケボックス＊公園 5 ＊公園バスホテル 6 ＊美術館＊映画館＊映画館 7 中華学習塾神社 8 宿泊施設仕立て直し＊デパート 9 ＊カフェ＊公園＊ショッピング 10 回転寿し中華＊喫茶店表 13 出力：評価クエリ (デート, する) 順位直接法 LSA法 Top-k法 1 駐車場浴場駅 2 ＊美術館介護施設＊公園 3 ＊ショッピングダイビングショップ＊博物館 4 ＊公園＊漫画喫茶＊ショッピング 5 駅習い事＊水族館 6 ＊科学館＊カフェバー＊バー 7 ＊博物館ペット用品＊遊園地 8 趣味沖縄そば＊動物園 9 ＊カフェ＊温泉浴場鉄道 10 ファッションすき焼き駐車場度の向上が確認できたが，3つのクエリにおいて，精度の低下が確認された． 6. 4 考察と今後の課題本節では，実験の結果に対する考察と今後の課題について述べる．本評価実験の結果，Top-k法が最も高い精度を示した．しかし，それでもその精度は0.39と低いものであった．そのため，すべての手法について精度を高めるための改善に取り組む必要がある．今回の実験において，すべての手法による精度が低くなった大きな原因の一つとして，地物クラスの抽出法が考えられる．本手法においては，YOLPに登録された業種コードを用いて地物クラスのリストを作成し，リストに登録されている地物クラスを回答から抽出した．そのため，YOLPに登録されている通りの地物クラスの抽出しか行うことができない．たとえば，「漫画喫茶」は登録されているため抽出できるが，「マンガ喫茶」や「漫喫」などは抽出できない．また，「海」や「山」などの自然の地物を表す語は登録されていないので，そのような地物クラスは全く抽出できていない．以上から，地物クラスのリストの作成方法の見直し，「漫画喫茶」と「マンガ喫茶」などの地物クラスの同意表現への対応方法を考える必要がある．また，各評価クエリによる出力を見ると，多くの評価クエリの出力において「駅」や「バス」といった地物クラスが上位となっている．これは，「河原町駅の近くの...」などのような表現が回答中で多く使われているためであると考えられる．本手法では，地物クラスをすべて同じ重要度で扱って抽出を行って

(8)

いる．そこで，回答中に出現する地物クラスに，その重要度によって重み付けを行うことで，このような問題を解決することができると考えられる．今回の実験において，3種類すべての手法についてすべての評価クエリで少なくとも1つの正解の地物クラスを得ることができた．さらに，3種類の手法について精度はほとんど変わらなかったが，個々の出力結果を見ると出力された地物クラスには大きな違いが見られた．たとえば，表12を見ると評価クエリ(暇つぶし,する)においては，LSA法を用いた場合「カラオケボックス」という正解の地物クラスが，Top-k法を用いた場合「ショッピング」や「喫茶店」という正解の地物クラスが，直接法を用いた場合に比べて新たに得られている．また，表13を見ると評価クエリ (デート,する)においては，LSA法を用いた場合「漫画喫茶」や「カフェバー」という正解の地物クラスが，Top-k法を用いた場合「水族館」や「バー」という正解の地物クラスが，直接法を用いた場合に比べて新たに得られている．以上のように，3種類にの手法ではそれぞれ異なる正解の地物クラスへの変換が行われているということが分かる．このように，それぞれの手法を用いることで出力される地物クラスの多様化が行われる．そのため，これら3種の手法を組み合わせることによって，行動名から地物クラスへの変換をより高い再現率で行うことができると考えられる．また，本手法においては，Q&Aコーパスから抽出した行動情報について，行動名を変換できる地物クラスの類似性に着目することで行動間の関係を発見し，行動情報の拡張を行った．しかし，実際の行動間の関係は単なる地物クラスの類似性のみでは完全に考慮することはできない．今後は，文書中の行動名どうしの関係に着目することで，より正確な行動間の関係を抽出し，行動情報の拡張を行っていくことが考えられる．本評価手法では，評価クエリを変換できる地物クラスによって行動が行える地物の検索が行えるかどうかを人手で評価した．しかし，ある地物クラスを用いた検索によってある行動が行える地物を検索することができるかどうかは，検索を行う地域にも大きく依存する．そのため，検索する地域も考慮した評価方法を今後考えていく必要がある．

7. まとめと今後の課題

本研究では，Q&Aコーパスをマイニングすることで行動名から地物クラスへの変換を行う手法を提案し，変換して得られた地物クラスを用いることで行動名による地物の検索を可能とした．提案手法では，Q&Aコーパス上から「ある行動が行える地物を求めている」質問とその回答を抽出し，あらかじめ用意した行動情報の抽出パターンとのマッチングにより，質問から行動要素を，その回答から地物クラス要素を抽出することで，行動情報を抽出した．次に，抽出した行動情報をもとに作成した行動-地物クラス行列に基づいて，行動名を地物クラスへと変換した．また，LSAを用いる手法と行動間の類似度を用いる手法により，地物クラスの類似性を考慮した行動情報の拡張を行い，この場合についても行動名から地物クラスへの変換を行った．また，Yahoo!知恵袋から抽出した行動情報を用いて評価実験を行った．評価実験の結果，提案手法によりすべての評価クエリについて，行動名をその行動が行える地物クラスへと変換できていることを確認した．それぞれの手法における精度が低い問題を解決するため，地物クラスの抽出手法の改善案について考察した．また，提案したそれぞれの手法を比較することで，出力される地物クラスの多様化を確認した．本手法の課題としては，検索を行う地域を考慮していないという問題が挙げられる．本手法では，ある行動をその行動が一般的に行える地物クラスへと変換することで地物の検索を行った．しかし，実際には地域によって行動が行える地物クラスは異なる．しかし，地域ごとに行動名の変換を行おうとした際には，その地域に関する十分な行動情報が存在しないという問題が起こりうる．今後は，対象とするQ&Aコーパスのデータの拡充や，行動情報の抽出パターンの見直しによって，より多くの行動情報の正確な抽出に取り組む予定である．また，様々な行動間の関係に着目することで，より多様な行動名の変換を可能とし，本手法の有用性を高めていく予定である．

謝

辞

本研究の一部は，文部科学省科学研究費補助金（課題番号 15H01718，24680008）によるものです．また，本研究の実施にあたり，ヤフー株式会社より提供いただいたYahoo!知恵袋のデータを利用しました．ここに記して謝意を表します．文献

[1] B. Liu, M. Hu, and J. Cheng. Opinion observer: Analyz-ing and comparAnalyz-ing opinions on the web. In ProceedAnalyz-ings of

the 14th International Conference on World Wide Web, pp.

342–351, 2005.

[2] S. Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, and Richard Harshman. Indexing by latent semantic analysis. JOURNAL OF THE

AMERI-CAN SOCIETY FOR INFORMATION SCIENCE, Vol. 41,

No. 6, pp. 391–407, 1990.

[3] N. Jindal and B. Liu. Mining comparative sentences and relations. In Proceedings of the 21th National Conference

on Artifical Intelligence, pp. 1331–1336, 2006.

[4] R. Jackendoﬀ. Semantic structures, Vol. 18. MIT press, 1992. [5] 倉島健, 藤村考, 奥田英範. 大規模テキストからの経験マイニング. 電子情報通信学会論文誌, Vol. 92, No. 3, pp. 301–310, 2009. [6] 立石健二, 石黒義英, 福島俊一. インターネットからの評判情報検索. 情報処理学会研究報告自然言語処理, Vol. 2001, No. 69, pp. 75–82, 2001. [7] 佐々木健太, 長野伸一, 長健太. Web 上のライフストリームからのユーザ行動情報の抽出. 人工知能学会全国大会論文集, pp. 1–4, 2011. [8] 竹内孔一. 意味の包含関係に基づく動詞項構造の細分類. 言語処理学会年次大会論文集, pp. 1037–1040, 2008. [9] 橋本力, 鳥澤健太郎, 黒田航, デサーガステイン, 村田真樹, 風間淳一. WWW からの大規模動詞含意知識の獲得. 情報処理学会論文誌, Vol. 52, No. 1, pp. 293–307, 2011.

行動名をクエリとした地理情報検索

DEIM Forum 2016 H5-6