• 検索結果がありません。

行動名をクエリとした地理情報検索

N/A
N/A
Protected

Academic year: 2021

シェア "行動名をクエリとした地理情報検索"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2016 H5-6

行動名をクエリとした地理情報検索

松村

優也

大島

裕明

††

田中

克己

††

京都大学工学部情報学科

〒 606-8501 京都府京都市左京区吉田本町

††

京都大学大学院情報学研究科

〒 606-8501 京都府京都市左京区吉田本町

E-mail:

†{

matsumura,ohshima,tanaka

}

@dl.kuis.kyoto-u.ac.jp

あらまし 本研究では,行動名をクエリとし,その行動が可能であるような地物の検索を行う手法を提案する.その

ような検索を実現するため,本研究では,Q&A サイトのコンテンツをマイニングし,

「ある場所である行動を行うこと

ができる」という行動情報を抽出する.Google Maps のような従来の地理情報検索システムは,場所を表す語や地物

の位置・住所をクエリとして地物を検索するものである.地物を検索するユーザの意図の一つに,ある行動を行える

地物を検索したいというものが考えられる.通常,

「コーヒーを飲む」ことができる地物を探している際は「喫茶店」,

「本を買う」ことができる地物を探している際は「本屋」のような,行動が行える場所を表す語を思い浮かべる.そし

て,そのような場所を表す語をクエリとして検索を行うことで,行動が行える地物を得る.ところが,行動の中には

「時間をつぶす」や「ストレスを発散する」のように,行動が行える場所を表す語を思い浮かべにくいものも存在す

る.また,行動が行える場所を表す語を思い浮かべられても,検索を行いたい地域においてそのような地物が存在し

なければ,地物を見つけることができない.本研究では,これらの問題を解決するため,Q&A サイト上にある行動情

報に着目し,行動情報を抽出する.また,行動が行える地物の類似性に着目した行動情報の拡張を行う.そうして得

られた行動情報に基づき,行動名を,その行動が行えるような場所を表す語へと変換する.この場所を表す語をクエ

リとして用いることで,行動名をクエリとした地理情報の検索を実現する.

キーワード 地理情報検索,Q&A サイト

1.

は じ め に

地物に関する検索において,Google Maps(注 1)などの地図 ベースで情報検索を行う地理情報検索システムが普及している. 地理情報検索システムでは,主に,地物を表す語が検索クエリ として用いられる.たとえば,「京都タワー」のような具体的な 地物を表す語で検索すると,地図上に京都タワーの位置が表示 され,それに関連するウェブページへのリンクも表示される. 「京都府京都市吉田本町」のように,地物の住所を検索クエリ として用いることも一般的に行われる.また,「喫茶店」や「コ ンビニエンスストア」のような,ある種の地物を表す語を検索 クエリとして用いることもできる.このような検索クエリの場 合,検索結果としてクエリの語と関連が強い地物が地図上に表 示される. 地理情報検索システムを利用するユーザの検索意図の一つに は,ある行動が行える地物を検索したいというものがある.た とえば,「コーヒーを飲む」,「本を買う」,「時間をつぶす」,「ス トレスを発散する」などのような行動を想定する.そして,そ のような行動が行える地物を知ろうとするものである.本研究 では,そのような「ある行動が行える地物」を検索することを 目的とする. 従来の地理情報検索システムにおいては,「コーヒーを飲む」 や「本を買う」というような行動そのものを表す行動名をク

(注 1):Google Maps: https://maps.google.co.jp

エリとして検索を行った場合,適切な検索結果を得ることはで きない.通常,ある「行動」が行える地物を検索したい場合, ユーザはその行動名を検索クエリとはしない.代わりに,その 行動が行える地物を表す語を検索クエリとして用いる.たとえ ば,「コーヒーを飲む」や「本を買う」などの行動を行いたい場 合にはそれぞれ,「喫茶店」,「本屋」といった地物を表す語を思 い浮かべ,これらの語を検索クエリとして用いることが考えら れる.実際,これらの検索を行った場合,それぞれの行動が行 える地物が検索結果として得られる. しかし,従来の地理情報検索システムにおいては,うまく地 理情報検索を行うことができない2つの場合が考えられる. 1つは,「時間をつぶす」や「ストレスを発散する」などのよ うに,行動が行える地物を表す語を思い浮かべることが困難で ある場合である.このような場合,ユーザは地理情報検索シス テムに適切なクエリを入力することができないため,うまく地 物の検索を行うことができない. もう1つは,地物を表す語を思い浮かべることができても, その語が表す地物が検索している地域において存在しないとい う場合である.たとえば,「デートする」ことができる地物を表 す語として,「カフェ」を思い浮かべたとする.しかし,求めて いる地域に「カフェ」がなければ検索を行っても結果は得られ ない. そこで本研究では,これらの場合でも行動が行える地物の検 索を可能にするため,「時間をつぶす」のような行動名を入力 とし,たとえば京都市河原町付近であれば,「スターバックス・

(2)

コーヒー 京都三条大橋店」や「ラウンドワン 京都河原町店」の ようなその行動が行える地物を出力するという課題に取り組む. 本研究では特に,この課題を解決するため,「時間をつぶす」 のような行動名を入力とし,「喫茶店」や「ボーリング場」のよ うなある種の地物を表す語を出力するという課題に取り組む. 本稿では,このようなある種の地物を表す語を「地物クラス」 と言う.このように,行動名を地物クラスへと変換し,得られ た地物クラスをクエリとして,既存の地理情報検索システムに おいて地物の検索を行う.すると,その行動が行えるような地 物が検索結果として得られると考えられる. 行動名を地物クラスへと変換するという問題に取り組むため に,本研究では,Yahoo!知恵袋(注 2) のような,Q&Aサイト上 にある投稿に着目する.このようなQ&Aコーパス上には,「あ る行動が行える地物を求めている」というような質問がある. たとえば,「時間をつぶす」ことができる地物を求めているユー ザによる,「時間をつぶせる場所知りませんか?」というような 質問が存在する.この場合,この質問の回答を参照することで, 「時間をつぶす」ことができる地物クラスに関する情報を手に 入れられると考えられる. しかし,単純にQ&Aコーパスを利用するのみでは不十分な 場合が存在する.そこで本研究では,行動名ごとの変換できる 地物クラスの類似性に着目することで,様々な行動間の関係を 抽出する.抽出した行動間の関係に基づき,変換できる地物ク ラスの候補の拡張を行う.たとえば,「時間をつぶす」という行 動と「暇をつぶす」という行動が同義行動である場合,「暇をつ ぶす」ことができる地物クラスにおいては,「時間をつぶす」こ ともできると考えられる. 本研究では,行動名を地物クラスへと変換する手法を提案し, 行動名を入力とした,行動が行える地物の検索を実現する.提 案手法は,まず,Q&Aサイト上にあるユーザの投稿から行動 名と行動が行える地物クラスの組からなる行動情報を抽出する. 得られた行動情報を用いることで,入力された行動名を地物ク ラスへと変換するまた,行動名を変換できる地物クラスの類似 性に着目することで,同義行動や含意行動のような行動間の関 係を抽出する.次に,得られた行動間の関係に基づき,行動情 報の拡張を行う.そうして拡張した行動情報を用いた行動名か ら地物クラスへの変換も考える.変換した地物クラスを検索ク エリとして,既存の地理情報検索システムを用いることで,行 動が行える地物の検索を行う. この手法により,「時間をつぶす」といった行動名をクエリと して受け取り,その行動が行える地物の検索が可能となる. 本稿の構成は以下の通りである.2章では,関連研究を紹介 する.3章では,本研究で用いる概念について説明を行う.4章 では,行動情報の抽出方法について述べる.5章では,行動名 から地物クラスへの変換について3種類の手法を述べる.6章 では,提案手法に関する実験と評価について述べる.7章では, まとめと今後の課題について述べる. (注 2):Yahoo!知恵袋: http://chiebukuro.yahoo.co.jp/

2.

関 連 研 究

本章では,本研究と関連する研究について言及し本研究の位 置付けについて述べる. 関連する研究分野としてはまず,評判情報抽出技術に関する 研究が考えられる.評判情報抽出技術の主な技術的課題は,(対 象,属性,評価)という三つ組を抽出することである. 立石ら[6]は,対象,属性,評価に関する共起パターン注目 し,属性,評価表現をブートストラップ的に抽出する手法を提 案した.Liuら[1]は,相関ルール抽出技術を用いて,属性表 現を抽出するルールを自動生成する手法を提案した.また,単 一の対象の評価情報の抽出のみならず,(評価対象,比較対象, 属性,評価)という四つ組から構成される複数の対象の比較評 価情報を抽出する研究も行われている.[3]これらの評判情報抽 出は,人名や商品名といった「対象」を軸とした情報抽出であ る.一方で,我々の研究においては,どこで,何を,どうした, という人間の「行動」を軸とした情報抽出を行う. 人間の行動を軸とした情報抽出に関する研究も多く行われて いる. 佐々木ら[7]は,ブログなどのテキスト情報から,人間が主 体となる行動属性を抽出する手法を提案している.佐々木らは, あらかじめ人手で用意した行動動詞判定辞書と,「何を(what)」, 「どこで(where)」,「いつ(when)」,「誰と(whom)」,「どのよ

うに(how)」という各行動に対する行動属性を抽出するパター ンマッチングを利用して行動と行動属性を抽出した.佐々木ら の研究は,人間の行動に関する情報を抽出するという点では本 研究と類似しているが,本研究では,ある「地物」においてあ る「行動」を行えるという,地物-行動間の関係に着目して情報 抽出を行っているという点で異なる. 倉島ら[5]は,人間の経験を(状況,行動,主観)からなる情 報と定義し,文章中から(時間,空間,動作,対象,感情)を 抽出し人間の経験に関する興味深い知識を発見する手法を述べ ている.人間が主体となる動作,およびその対象を抽出し,マ イニングすることで新たな知識を得ようとしている点で本研究 と共通する部分は大きいが,倉島らの研究では,抽出した経験 の中から,データマイニング分野で提案されている,ルールの 「興味深さ」指標を用いた相関ルール抽出を行い,状況に特有 な行動と感情を表現するルールを,興味深いものとして発見し ているのであり,行動を行える地物クラスの発見を目標として いる本研究とは異なる. 行動間の関係を抽出する研究も多く行われている. 竹内ら[8]は,動詞がとる項の間の関係に動詞の意味を分解す ることによって多元的な意味記述を行う語彙概念構造(lexical conceptual structure (LCS)) [4]のもつ動詞間の包含関係に着 目し,より詳細化した分類体系を構築することで,動詞項構造 の語義を多元的に記述する動詞項構造シソーラスを提案した. 橋本ら[9]は,誰かが「離婚した」ならばその人は以前に「結 婚した」はずである,というような含意関係が成立する動詞ペ アをwebから大規模に獲得するための類似度尺度を提案した. 橋本らは,同じような文脈に現れる語は同じような意味を持つ

(3)

という分布類似度仮説に基づき,条件付確率を考慮した上で, 類似度尺度を提案した. 本研究においては,単なる行動そのものの意味ではなく,行 動が可能な地物の類似性に着目することで行動間の関係を考慮 しているという点で,前述の研究とは異なる.

3.

概念の説明

本章では,本研究の基盤となる概念について説明する.まず, 本研究における場所を表す語の定義についてそれぞれ述べる. 次に,本研究において扱う行動情報の定義について述べる. 3. 1 場所を表す語 本稿では,場所を表す際に以下の3つの語を用いる. (1) 地域:ある一定の範囲の場所を表す語     例:「東京都」,「京都市」 (2) 地物:実世界の具体的なある場所を表す語     例:「スターバックスコーヒー 京都三条大橋店」,       「紀伊国屋書店 梅田本店」 (3) 地物クラス:ある種の地物を表す語     例:「喫茶店」,「本屋」    本稿では以上に定義した語を用いて場所を表す語を表現する. 本研究の目的は,入力された行動名を「地物クラス」へと変 換することで,ある「地域」において行動が行える「地物」の 検索を行うことである. 3. 2 行 動 情 報 本研究では,人間の行動情報は以下の2つの組から成立する ものであると定義する. (1) 地物クラス:行動が行える地物クラス. (2) 行動:人間が行う動作,または動作とその対象. 本研究では,地物クラス要素を以下のように表現する. g =地物クラス たとえば,「喫茶店」という地物クラスにおいて行動が行える場 合,g =喫茶店 のように地物クラス要素を表現する. 行動要素はさらに細分化され,以下のような2属性の組で表 現できるものとする. a = (対象,動作) 本研究では,動作属性を,「動詞」または「サ変名詞」+「す る」と定義する.「サ変名詞」とは,「勉強」や「食事」のような, 動詞「する」に接続して動詞となりうる名詞のことである.ま た,対象属性は,「コーヒーを飲む」の「コーヒー」や,「時間を つぶす」の「時間」のように,動作の対象となる語を表す. なお,本研究においては(コーヒー,飲む)や(ストレス,発散 する)のような,ある地物において動作を実行するという性質 を持つものを行動として扱う.たとえば,(京都,行く)や(喫茶 店, 訪れる)のような場所の移動を表す行動は扱わないものと する.これは本研究が,ある行動が行える地物を検索すること を目的としているため,そもそも地物に関する情報を含むよう な行動は本研究の趣旨には合わないからである. 表 1 ある行動が行える地物を求めている質問の抽出パターン 検索フレーズ 抽出される文章の例 場所 (を)?探して 「場所を探しています」,「場所を探しているので すが」 場所 (を)?教えて 「場所教えて下さい」,「場所を教えてくれません か」 場所 (を)?知っ 「場所知りませんか」「場所知っていたら」 場所 (を)?ご存知 「場所ご存知でしたら」,「場所をご存知なら」 場所 (が)?あ 「場所があったら」,「場所あれば」 表 2 抽出されたの質問の例 (1)琵琶湖で BBQ 出来る場所を探しています! (2)愛知県で楽器の練習ができる場所を探しています。 (3)東京都内で時間をつぶせる場所を探しています. (4)京都で紅葉が見れるオススメの場所があれば教えてください。 また,(None,食べる)や(None,買う)のような,対象属性 がない,動作属性のみからなる行動も本研究では扱わないもの とする.これは,動作属性のみからなる行動は抽象度が高いも のが多く,それだけでは行動の意味が捉えにくいと考えたから である. たとえば,「喫茶店でコーヒーを飲んだ.」という文章からは, g =喫茶店, a = (コーヒー,飲む)という行動情報を抽出する ことができる.「公園で野鳥を観察した」という文章からは, g =公園, a = (野鳥,観察する)という行動情報を抽出するこ とができる.

4.

行動情報の抽出

本研究の目的は,行動名を地物クラスに変換することによっ て,行動名による行動が行える地物の検索を実現することで ある. 行動名を地物クラスへと変換するために,本研究ではQ&A コーパスに着目する.Q&Aコーパスには,「時間をつぶすこと ができる場所を知りませんか?」というような,ある行動が行 える地物を求めているような質問がある.また,その回答には, その行動ができる地物に関する情報が記載されていると考えら れる.そこで,そのような質問と回答を分析することで,行動 名をその行動が可能な地物クラスへと変換する.本章では,そ のような変換を行うため,Q&Aコーパスを解析し,行動名と その行動が行える地物クラスから成る行動情報を抽出する手法 について述べる. 本手法では,行動情報を抽出するため,対象となる質問に対 し以下のような前処理を施す.まず,質問を読点や記号など文 章の区切りとなる位置で分割する.次に,それぞれの文に対し て形態素解析と係り受け解析を行う.こうして,各文は閉路の ない有向グラフで表現される.この有向グラフの各ノードは 文の各文節に対応しており,ノードは複数の単語のシーケンス で構成される.また,各エッジは文節の係り受け関係に対応し ている.さらに,有向グラフを複数の有向道に分解することに よって,1文を複数の有向道の集合で表現する. 4.2節では,こ の処理で得られた各有向道とあらかじめ人手で用意しておいた

(4)

表 3 質問からの行動要素の抽出パターン パターン 対象 動作 ⟨[x/名 詞][を/助 詞]⟩?[y/動 詞][こ と/名 詞][が/助 詞][できる/動詞][場所/名詞] x y ⟨[x/名詞][を/助詞]⟩?[y/名詞・サ変接続][する/動 詞][こと/名詞][が/助詞][できる/動詞][場所/名詞] x yする [x/名詞][が|の/助詞][見れる|観れる|みれる/動 詞][場所/名詞] x みる ⟨[x/名詞][を/助詞]⟩?[y/動詞][れる|られる/動詞・ 接尾][場所/名詞] x y ⟨[x/名 詞][の/助 詞]⟩?[y/名 詞・サ 変 接 続][が/助 詞][できる/動詞][場所/名詞] x yする ⟨[x/名詞][を/助詞]⟩?[y/名詞・サ変接続][できる/ 動詞][場所/名詞] x yする [x/名詞]+[が/助詞]?[できる/動詞][場所/名詞] x する ⟨[x/名詞][を/助詞]⟨?[y/動詞][場所/名詞] x する ⟨[x/名詞][を/助詞]⟨?[y/名詞・サ変接続][する/動 詞][場所/名詞] x yする 表 4 行動要素として扱わない移動を示す動詞 行く 来る 訪れる 訪問する 入る 出る 着く 到着する 帰る ぶらつく うろつく まわる おもむく 寄る のぼる 向かう 抽出パターンとのマッチングを行うことで,質問から行動名を, その回答から地物クラスを抽出し,行動情報を得る. 4. 1 ある行動が行える地物を求めている質問の抽出 大量のQ&Aコーパス上にある質問の中から,「ある行動が行 える地物を求めている」質問を抽出する必要がある.このよう な質問に共通する特徴として,「∼できる場所を探しています」 や「∼するところありませんか」のような,言語パターンが多 く見られる.そこで本手法では,表1に示すパターンで質問を フレーズ検索することによって,そのような質問を抽出した. ただし,「場所」としている部分は,同様の意味で使われている, 「ところ」,「とこ」,「店」,「施設」に置き換えて検索を行った 結果も考えた.また,「(を)?」というのは,「を」がある場合と ない場合の両方の言語パターンを検索に用いたことを表す.こ うして抽出された「ある行動が行える地物を求めている」質問 の例を表2に示す. 4. 2 質問から行動要素の抽出 次に,抽出した質問を形態素解析と係受け解析して得られた 各有向道に対し,人手で作成した抽出パターンとのマッチング を行うことで,行動要素を抽出する.質問からの行動要素の抽 出パターンを正規表現で表したもののすべてを表3に列挙する. 行動要素の抽出においても,ある行動ができる場所を求める質 問中では,「∼できる場を探しています」などのような特徴的な 表現が使われることを利用した.パターン中の「a/b」という 表現は,「bという品詞のaという語」という意味を表している. たとえば,「こと/名詞」という表現は,「名詞である“こと”とい う語」を表している.パターン中の変数x,yに当てはまる単 語は抽出され,それぞれ,対象,動作属性に格納される. 表 5 YOLPで登録された業種コードの例 業種 業種コード ラーメン 0106001 喫茶店 0115002 マンガ喫茶 0115011 デパート,百貨店 0204001 コンビニ 0205001 キャンプ場 0303006 映画館 0305001 表 6 抽出された回答の例 (1)調べてみると、マイアミ浜オートキャンプ場などがありま   した. (2)カラオケはいかがですか?楽器練習の場所として勧めてい   るところもありますよ。 (3)歌舞伎町まで歩けばサウナがあります.マンガ喫茶もたく   さんあります. (4)京都市内では世界遺産の下鴨神社などが有名です. ただし,本研究では移動を表すような行動を扱わない.その ため,表4に示す動詞が動作属性にあたる場合は,行動要素を 抽出しないこととする. 表2の例に対して,表3で示した行動要素の抽出パターンを 適用した場合,以下のような行動要素が抽出される. (1) a = (BBQ,する) (2) a = (楽器,練習する) (3) a = (時間,つぶせる) (4) a = (紅葉,みる) 4. 3 回答からの地物クラス要素の抽出 回答から地物クラス要素を抽出するに際し,地物クラスのリ ストをあらかじめ用意した.そして,リスト内の地物リストが 回答中に存在すれば,それを地物クラス要素として抽出した. 地物リストの作成にはYahoo! JAPANの提供する,Yahoo! Open Local Platform(注 3)(以下, YOLP) を利用した.YOLP

の施設情報には,施設の種類を分類できるように業種コードが 登録されている.その一部を表5に示す.「デパート,百貨店」 のように,一つの業種コードに複数の種類の業種が登録されて いる場合,地物クラスのリストには別々に登録した.本研究で は,こうして得られた業種697種を用いて地物クラスのリスト を得た. 表6に,表2の質問に対する回答の例を示す.この例に対し て本手法を適用した場合,以下のような地物クラス要素が抽出 される.ただし,(3)のように複数の地物クラスが同一の回答 中に存在する場合,すべての地物クラスを抽出する. (1) a =キャンプ場 (2) a =カラオケ (3) a =サウナ, g =マンガ喫茶 (4) a =神社

(注 3):Yahoo! Open Local Platform: http://developer.yahoo.co.jp/webapi/map/

(5)

表 7 行動-地物クラス行列 g1 g2 · · · gk · · · gn a1 s11 s12 · · · · . . . a2 s21 s22 · · · · . . . . . . · · · · ... aj · · · sjk · · · . . . . . . · · · · . . . am · · · smn

5.

行動名から地物クラスへの変換

本章では,Q&Aコーパスから抽出した行動情報に基づく, 行動名から地物クラスへの変換手法について述べる.また,単 純にQ&Aコーパスから行動情報を抽出するのみでは不十分な 場合がある.そのため,変換できる地物クラスの類似性に着目 した行動情報の拡張を行い,その場合の行動名から地物クラス への変換手法についても述べる. 5. 1 直 接 法 4章では,ある行動が行える地物を求めているような質問か ら行動要素を,その回答から地物クラス要素を抽出することで, Q&Aコーパス上の行動情報を抽出した.この行動情報を集約 して,表7のような行動-地物クラス行列を作成する. ここで,全行動集合をA ={a1, a2, ..., am},全地物クラス 集合をG ={g1, g2, ..., gn}とすると,aj∈ A, gk∈ Gである. ただし,j = 1, 2, ..., m, k = 1, 2, ..., nである.また,行列中の 成分sjkは,行動ajを抽出したすべての質問について,その 回答から地物クラスgkが抽出された回数を表す. 行動-地物クラス行列中で成分sjk> 0であれば,行動ajを 表す行動名は地物クラスgkにおいて可能であると,少なくと も1回はQ&Aコーパス上で記述されていることになる.すな わち,この行動-地物クラス行列を利用すれば,ある行動名をあ る地物クラスへと変換することができる. たとえば,行動-地物クラス行列の一部に表8のような部分が あるとする.この場合,(時間,つぶす)の行に注目すると,「時 間をつぶす」という行動名を「喫茶店」や「カフェ」という地 物クラスへと変換することができる. 以上のような,単純にQ&Aコーパスから抽出した行動情報 のみを用いた,行動名から地物クラスへの変換手法を,「直接 法」と呼ぶ.直接法により,ある行動名を地物クラスへと変換 し,変換した地物クラスをクエリとして検索を行うことで,行 動名を入力とした行動が行える地物の検索が可能となる. しかし,直接法では不十分な場合がある.その問題について 次節で述べる. 5. 2 直接法の問題 現段階の行動-地物クラス行列は,質問中から行動名を,その 回答中から地物クラスを抽出し,その抽出された回数をそれぞ れの成分の値としている.しかし,行動名や地物クラスがQ&A コーパス内できちんと明記されていない場合も多い.そのため, 表 8 行動-地物クラス行列の例 · · · 喫 茶 店 カ フ ェ カ ラ オ ケ · · · . . . · · · · (時間,つぶす) · · · 3 4 0 · · · (暇,つぶす) · · · 2 2 1 · · · . . . · · · · ある行動についての行動情報が少なくなってしまうこともあり, 現段階の行動-地物クラス行列はスパースである.よって,現段 階の行動-地物クラス行列を用いるのみの直接法では,行動名か ら地物クラスへの変換が不十分な場合がある. たとえば,表8の例においては,直接法では「時間をつぶす」 という行動名を「カラオケ」という地物クラスに変換すること はできない.しかし,「時間をつぶす」という行動は「カラオケ」 で可能であると考えられるため,「時間をつぶす」から「カラオ ケ」への変換は行えるべきである. ここで,「暇をつぶす」という行動名を「カラオケ」という地 物クラスに変換することは可能であることに注目する.この際, 「時間をつぶす」と「暇をつぶす」が同義行動であると考える と,「時間をつぶす」という行動名を「カラオケ」という地物ク ラス名に変換することができる.このように同義行動に注目す ることで,ある行動の変換できる地物クラスの候補を拡張する ことができる. また,たとえば「歌を歌う」という行動を行えば「ストレス を発散する」という行動を行ったことになるという含意関係が 成立すると考えた場合,「歌を歌う」ことができる地物において は,「ストレスを発散する」こともできるというような関係も考 えられる. このように,行動間の関係を利用すると,変換できる地物ク ラスの候補を拡張することができる場合がある. そこで本研究では,このような同義行動や含意行動を考慮し た変換できる地物クラス候補の拡張による行動情報の拡張を行 い,行動-地物クラス行列の値を補完した場合の行動名から地物 クラスへの変換手法を提案する. 本手法では,それぞれの行動について,その行動名が直接法 によって変換できる地物クラスの類似性に着目する.2つの行 動について,それらが同義行動であれば,それらの行動名が変 換できる地物クラスに類似性が見られると考えられる.また, 2つの行動が含意関係にあるならば,それらの行動名が変換で きる地物クラスの一部に類似性が見られると考えられる.そこ で本手法では,それぞれの行動についてその行動名が変換でき る地物クラスの類似性に着目し,行動-地物クラス行列の値の補 完を行う.そうすることで,同義行動や含意行動を考慮した行 動名から地物クラスへの変換を行う. 提案手法は2つある.1つは,情報検索の分野でよく用いら れる,LSA(Latent Semantic Analysis;潜在意味解析) [2]を行 動-地物クラス行列に適用する方法である.もう1つは,行動ご

(6)

とに,その行動名を変換できる地物クラスに着目した類似度を 算出することで,類似する行動の行の成分の値をもとの行動の 行の成分に反映させる方法である. 以下の節では,それぞれの手法について詳しく述べる. 5. 3 LSA 法 本節では,LSAを用いた行動-地物クラス行列の値の補完を 行った場合の行動名から地物クラスへの変換手法について述べ る.LSAとは,単語とそれが現れる文書の関係を統計的に評価 する手法であり,以下のような操作を行う.まず,文書とその文 書中に含まれる単語とその頻度を基に作成した共起行列Aに対 してSVD(Singular Value Decomposition;特異値分解)を利用 することで,m×n行列Aを次のような3つの行列U, S, V に分 解する.ただし,r = min(m, n), U : m× r, S : r × r, V : n × r である. A = U SVT 次に,SVDによって分解された行列に対し,上位r個の特異 値のみを用いて,U SVTを掛け合わせ,近似行列Arを得る. この近似行列では,重要度の低い情報を消去することによって より関連度の強い単語ベクトルが同一次元に縮退され,類似し た値に近似される.こうすることで,間接的に関連のある単語 間においても高い類似度を得ることができる. 本手法では,行動-地物クラス行列を,行動と地物クラスを元 にした共起行列と考え,LSAを適用する.そうすると,間接的 に関連のある地物クラス間において高い類似度が算出され,関 連しているにも関わらず値が0であった成分にも類似行動を考 慮した値が挿入される. こうして値が補完された行動-地物クラス行列に対して,直接 法と同様に成分の値が1以上である行の行動と列の地物クラス に着目することで,行動名から地物クラスへの変換を行う.こ の手法を本稿では「LSA法」と呼ぶことにする. 5. 4 Top-k 法 本節では,行動ごとの行動名を変換できる地物クラスに着目 した類似度を算出することによる,行動-地物クラス行列の値の 補完を行った場合の行動名から地物クラスへの変換手法につい て述べる. まず,行動-地物クラス行列の各行に注目し,行動ごとに以下 のようなベクトルを得る. aj= (sj1, sj2, ..., sjn) ただし,j = 1, 2, ..., m 次に,ベクトル間の類似度を求める.類似度の算出にはコ サイン類似度を用いた.あるベクトルaj に対し,ベクトル ai(1 <= i <= m, i |= j)との類似度を算出する.そのうち類似 度が高かった上位3つのベクトルax, ay, az(1 <= x <= m, 1 <= y <= m, 1 <= z <= m, x |= y |= z |= j)について, aj= aj+ ax+ ay+ az となるようなベクトルを得る.この操作を,すべてのaj(j = 1, 2, ..., m)について行い,ベクトルaj(j = 1, 2, ..., m)を得る. 表 9 Yahoo!知恵袋から抽出された行動 (抽出回数上位 10 件) 順位 行動 1 (食事, する) 2 (ランチ, する) 3 (服, 売る) 4 (ランチ, 食べる) 5 (グッズ, 売る) 6 (買取, する) 7 (個室,ある) 8 (バーベキュー, する) 9 (在庫, する) 10 (時間, 潰せる) こうして新たに得られたベクトルを用い,新しく行動-地物クラ ス行列を得る. 本手法では,行動-地物クラス行列の各行ごとの類似度を求め ることで,変換できる地物クラスが類似する行動を求めた.そ して,変換できる地物クラスが類似する行動どうしは,同義行 動や含意行動の性質を持つと考えた.類似する行動の行の成分 の値を,もとの行動の行の成分の値に加えることで,行列の値 の補完を行い,行動情報の拡張を行った.こうして値が補完さ れた行動-地物クラス行列に対して直接法と同様に,行動名から 地物クラスへの変換を行う.この手法を本稿では「Top-k法」 と呼ぶことにする.

6.

本章では,提案手法を用いて行った実験とその評価について 述べ,結果についての考察を行う.本実験の目的は,Q&Aコー パスより抽出した行動情報に基づく,行動名から地物クラスへ の変換により,ある行動が行える地物の検索を行えるかどうか を検証することである. 6. 1 データセットとパラメータの設定 行動情報の抽出に際して,Yahoo!知恵袋の2014年の質問と回 答のセット(質問9,759,140件,回答224,969,787件)を用いた. 文の形態素解析には,形態素解析エンジンMeCab(注 4)を利用し た.また,係受け解析には,日本語係受け解析器CaboCha(注 5) を利用した. 4章で述べたQ&Aコーパスからの行動情報の抽出を行った 結果,Yahoo!知恵袋から抽出できた行動は全部で15,926種類 であった.そのうち,行動-地物クラス行列の作成には,3回以 上抽出された行動1,435件を用いた.地物クラスはYOLPに 登録されている697件を用いた. 表9に本手法によりYahoo!知恵袋から抽出された行動とそ の件数の上位10件を示す. また,LSA法では上位200個の特異値を用いて次元圧縮を 行った. 6. 2 評 価 方 法 5章で提案した行動名から地物クラスへの変換手法である直 (注 4):MeCab: http://code.google.com/p/mecab/ (注 5):CaboCha: http://code.google.com/p/cabocha/

(7)

表 10 評価クエリ 評価クエリ (時間, 潰せる) (時間, つぶせる) (サプライズ, する) (星, 見える) (勉強, する) (暇つぶし, する) (花見, する) (自然, 感じる) (イチャイチャ, する) (デート, する) 表 11 評 価 結 果 評価クエリ 直接法 LSA法 Top-k法 (時間, 潰せる) 0.6 0.5 0.4 (時間, つぶせる) 0.6 0.3 0.5 (サプライズ, する) 0.4 0.4 0.5 (星, 見える) 0.2 0.2 0.3 (勉強, する) 0.3 0.3 0.1 (暇つぶし, する) 0.6 0.4 0.6 (花見, する) 0.2 0.0 0.2 (自然, 感じる) 0.1 0.2 0.2 (イチャイチャ, する) 0.2 0.3 0.4 (デート, する) 0.6 0.3 0.7 平均 0.38 0.29 0.39 接法,LSA法,Top-k法の3種類について,それぞれが変換で きる地物クラスを比較した. Q&Aコーパスから抽出された行動名のうち,行動が行える 地物クラスを思い浮かべにくいと人手で判別したものの中で, 抽出回数が上位10件のものを評価クエリとして採用した.評 価に用いるクエリを表10に示す. 本評価手法では,行動名から地物クラスへの変換手法によっ て評価クエリを変換できる地物クラスの中でも,行動-地物クラ ス行列中で評価クエリの行の成分の値が上位10件である列の 地物クラスについて,行動が行える地物を検索できるかどうか を人手で評価する.すべての評価クエリについて上記の処理を 行い,正しい地物クラスの割合を精度とする. 評価実験は,それぞれの評価クエリに対し,直接法,LSA法, Top-k法の3種類の変換手法を用いた場合について実施する. 6. 3 結 果 本節では,実験の結果について述べる. 実験結果を表11に示す.また,評価クエリ(暇つぶし,する) と(デート, する)における出力をそれぞれ表12と表13に示 す.地物クラスの前に“*”がついているものは,今回正解とし た地物クラスを表している. 実験の結果,Top-k法が最も高い精度を示した.一方で,LSA 法は最も精度が低いという結果であった.LSA法においては, 2つのクエリでのみ,直接法と比べて精度の向上が確認された が,5つのクエリにおいては,精度の低下が確認された.一方 で,Top-k法においては,5つのクエリで,直接法と比べて精 表 12 出力:評価クエリ (暇つぶし, する) 順位 直接法 LSA法 Top-k法 1 駅 駅 駅 2 *デパート *デパート *カフェ 3 バス ベビー用品 バス 4 *映画館 *カラオケボックス *公園 5 *公園 バス ホテル 6 *美術館 *映画館 *映画館 7 中華 学習塾 神社 8 宿泊施設 仕立て直し *デパート 9 *カフェ *公園 *ショッピング 10 回転寿し 中華 *喫茶店 表 13 出力:評価クエリ (デート, する) 順位 直接法 LSA法 Top-k法 1 駐車場 浴場 駅 2 *美術館 介護施設 *公園 3 *ショッピング ダイビングショップ *博物館 4 *公園 *漫画喫茶 *ショッピング 5 駅 習い事 *水族館 6 *科学館 *カフェバー *バー 7 *博物館 ペット用品 *遊園地 8 趣味 沖縄そば *動物園 9 *カフェ *温泉浴場 鉄道 10 ファッション すき焼き 駐車場 度の向上が確認できたが,3つのクエリにおいて,精度の低下 が確認された. 6. 4 考察と今後の課題 本節では,実験の結果に対する考察と今後の課題について述 べる. 本評価実験の結果,Top-k法が最も高い精度を示した.しか し,それでもその精度は0.39と低いものであった.そのため, すべての手法について精度を高めるための改善に取り組む必要 がある. 今回の実験において,すべての手法による精度が低くなった 大きな原因の一つとして,地物クラスの抽出法が考えられる. 本手法においては,YOLPに登録された業種コードを用いて地 物クラスのリストを作成し,リストに登録されている地物クラ スを回答から抽出した.そのため,YOLPに登録されている通 りの地物クラスの抽出しか行うことができない.たとえば,「漫 画喫茶」は登録されているため抽出できるが,「マンガ喫茶」や 「漫喫」などは抽出できない.また,「海」や「山」などの自然 の地物を表す語は登録されていないので,そのような地物クラ スは全く抽出できていない.以上から,地物クラスのリストの 作成方法の見直し,「漫画喫茶」と「マンガ喫茶」などの地物ク ラスの同意表現への対応方法を考える必要がある. また,各評価クエリによる出力を見ると,多くの評価クエリ の出力において「駅」や「バス」といった地物クラスが上位と なっている.これは,「河原町駅の近くの...」などのような表現 が回答中で多く使われているためであると考えられる.本手 法では,地物クラスをすべて同じ重要度で扱って抽出を行って

(8)

いる.そこで,回答中に出現する地物クラスに,その重要度に よって重み付けを行うことで,このような問題を解決すること ができると考えられる. 今回の実験において,3種類すべての手法についてすべての 評価クエリで少なくとも1つの正解の地物クラスを得ることが できた.さらに,3種類の手法について精度はほとんど変わら なかったが,個々の出力結果を見ると出力された地物クラスに は大きな違いが見られた. たとえば,表12を見ると評価クエリ(暇つぶし,する)にお いては,LSA法を用いた場合「カラオケボックス」という正 解の地物クラスが,Top-k法を用いた場合「ショッピング」や 「喫茶店」という正解の地物クラスが,直接法を用いた場合に 比べて新たに得られている.また,表13を見ると評価クエリ (デート,する)においては,LSA法を用いた場合「漫画喫茶」 や「カフェバー」という正解の地物クラスが,Top-k法を用い た場合「水族館」や「バー」という正解の地物クラスが,直接 法を用いた場合に比べて新たに得られている. 以上のように,3種類にの手法ではそれぞれ異なる正解の地 物クラスへの変換が行われているということが分かる.このよ うに,それぞれの手法を用いることで出力される地物クラスの 多様化が行われる.そのため,これら3種の手法を組み合わせ ることによって,行動名から地物クラスへの変換をより高い再 現率で行うことができると考えられる. また,本手法においては,Q&Aコーパスから抽出した行動 情報について,行動名を変換できる地物クラスの類似性に着目 することで行動間の関係を発見し,行動情報の拡張を行った. しかし,実際の行動間の関係は単なる地物クラスの類似性のみ では完全に考慮することはできない.今後は,文書中の行動名 どうしの関係に着目することで,より正確な行動間の関係を抽 出し,行動情報の拡張を行っていくことが考えられる. 本評価手法では,評価クエリを変換できる地物クラスによっ て行動が行える地物の検索が行えるかどうかを人手で評価した. しかし,ある地物クラスを用いた検索によってある行動が行え る地物を検索することができるかどうかは,検索を行う地域に も大きく依存する.そのため,検索する地域も考慮した評価方 法を今後考えていく必要がある.

7.

まとめと今後の課題

本研究では,Q&Aコーパスをマイニングすることで行動名 から地物クラスへの変換を行う手法を提案し,変換して得られ た地物クラスを用いることで行動名による地物の検索を可能と した.提案手法では,Q&Aコーパス上から「ある行動が行え る地物を求めている」質問とその回答を抽出し,あらかじめ用 意した行動情報の抽出パターンとのマッチングにより,質問か ら行動要素を,その回答から地物クラス要素を抽出することで, 行動情報を抽出した.次に,抽出した行動情報をもとに作成し た行動-地物クラス行列に基づいて,行動名を地物クラスへと 変換した.また,LSAを用いる手法と行動間の類似度を用い る手法により,地物クラスの類似性を考慮した行動情報の拡張 を行い,この場合についても行動名から地物クラスへの変換を 行った. また,Yahoo!知恵袋から抽出した行動情報を用いて評価実験 を行った.評価実験の結果,提案手法によりすべての評価クエ リについて,行動名をその行動が行える地物クラスへと変換で きていることを確認した.それぞれの手法における精度が低い 問題を解決するため,地物クラスの抽出手法の改善案について 考察した.また,提案したそれぞれの手法を比較することで, 出力される地物クラスの多様化を確認した. 本手法の課題としては,検索を行う地域を考慮していないと いう問題が挙げられる.本手法では,ある行動をその行動が一 般的に行える地物クラスへと変換することで地物の検索を行っ た.しかし,実際には地域によって行動が行える地物クラスは 異なる.しかし,地域ごとに行動名の変換を行おうとした際に は,その地域に関する十分な行動情報が存在しないという問題 が起こりうる. 今後は,対象とするQ&Aコーパスのデータの拡充や,行動 情報の抽出パターンの見直しによって,より多くの行動情報の 正確な抽出に取り組む予定である.また,様々な行動間の関係 に着目することで,より多様な行動名の変換を可能とし,本手 法の有用性を高めていく予定である.

本研究の一部は,文部科学省科学研究費補助金(課題番号 15H01718,24680008)によるものです.また,本研究の実施 にあたり,ヤフー株式会社より提供いただいたYahoo!知恵袋 のデータを利用しました.ここに記して謝意を表します. 文 献

[1] B. Liu, M. Hu, and J. Cheng. Opinion observer: Analyz-ing and comparAnalyz-ing opinions on the web. In ProceedAnalyz-ings of

the 14th International Conference on World Wide Web, pp.

342–351, 2005.

[2] S. Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, and Richard Harshman. Indexing by latent semantic analysis. JOURNAL OF THE

AMERI-CAN SOCIETY FOR INFORMATION SCIENCE, Vol. 41,

No. 6, pp. 391–407, 1990.

[3] N. Jindal and B. Liu. Mining comparative sentences and relations. In Proceedings of the 21th National Conference

on Artifical Intelligence, pp. 1331–1336, 2006.

[4] R. Jackendoff. Semantic structures, Vol. 18. MIT press, 1992. [5] 倉島健, 藤村考, 奥田英範. 大規模テキストからの経験マイニ ング. 電子情報通信学会論文誌, Vol. 92, No. 3, pp. 301–310, 2009. [6] 立石健二, 石黒義英, 福島俊一. インターネットからの評判情報 検索. 情報処理学会研究報告自然言語処理, Vol. 2001, No. 69, pp. 75–82, 2001. [7] 佐々木健太, 長野伸一, 長健太. Web 上のライフストリームか らのユーザ行動情報の抽出. 人工知能学会全国大会論文集, pp. 1–4, 2011. [8] 竹内孔一. 意味の包含関係に基づく動詞項構造の細分類. 言語処 理学会年次大会論文集, pp. 1037–1040, 2008. [9] 橋本力, 鳥澤健太郎, 黒田航, デサーガステイン, 村田真樹, 風間 淳一. WWW からの大規模動詞含意知識の獲得. 情報処理学会 論文誌, Vol. 52, No. 1, pp. 293–307, 2011.

表 3 質問からの行動要素の抽出パターン パターン 対象 動作 ⟨ [x/名 詞][を/助 詞] ⟩ ?[y/動 詞][こ と/名 詞][が/助 詞][できる/動詞][場所/名詞] x y ⟨ [x/名詞][を/助詞] ⟩ ?[y/名詞・サ変接続][する/動 詞][こと/名詞][が/助詞][できる/動詞][場所/名詞] x y する [x/名詞][が|の/助詞][見れる|観れる|みれる/動 詞][場所/名詞] x みる ⟨ [x/名詞][を/助詞] ⟩ ?[y/動詞][れる|られる/動詞・ 接尾][場所/名
表 7 行動-地物クラス行列 g 1 g 2 · · · g k · · · g n a 1 s 11 s 12 · · · · · · · · · ... a 2 s 21 s 22 · · · · · · · · · ..
表 10 評価クエリ 評価クエリ (時間, 潰せる) (時間, つぶせる) (サプライズ, する) (星, 見える) (勉強, する) (暇つぶし, する) (花見, する) (自然, 感じる) (イチャイチャ, する) (デート, する) 表 11 評 価 結 果 評価クエリ 直接法 LSA 法 Top-k 法 (時間, 潰せる) 0.6 0.5 0.4 (時間, つぶせる) 0.6 0.3 0.5 (サプライズ, する) 0.4 0.4 0.5 (星, 見える) 0.2 0.2 0.3 (勉強, する)

参照

関連したドキュメント

うのも、それは現物を直接に示すことによってしか説明できないタイプの概念である上に、その現物というのが、

  BCI は脳から得られる情報を利用して,思考によりコ

tiSOneと共にcOrtisODeを検出したことは,恰も 血漿中に少なくともこの場合COTtisOIleの即行

このように,フラッシュマーケティングのためのサイトを運営するパブ

ところで、モノ、ヒト、カネの境界を越え た自由な往来は、地球上の各地域の関係性に

次に、第 2 部は、スキーマ療法による認知の修正を目指したプログラムとな

このような情念の側面を取り扱わないことには それなりの理由がある。しかし、リードもまた

となる。こうした動向に照準をあわせ、まずは 2020