3. コンテクスト検索エンジンのインタフェース拡張
3.2. 知見タグの導入とタグ・クエリの拡張
52
53
図 3.35:従来システムV2と提案システムの知見入力例
大坪 [44]は不動産検索システムにおいて,ユーザと不動産エージェントとの会話から音 声認識によってこだわり条件を自動で推薦するシステムを提案している.音声認識によっ て認識された単語と,システムで予め設定したキーワードが一致するこだわり条件の推薦 を行うが,ユーザはシステムが認識可能なキーワードを知ることができない.そのため,発 話した単語とキーワードが少しでも異なる場合,こだわり条件を適切に推薦することがで きないという問題があった.この問題に対し,Word2Vecでキーワードを拡張するシステム を提案している.各こだわり条件に対して手動で設定した 2~5 個のキーワードごとに
Word2Vecで関連語を検索し,それらを拡張キーワードとしている.同様に,認識した会話
から抽出した名詞と動詞についても Word2Vec で関連語を検索し,それらを拡張キーワー ドとしている.それぞれの拡張キーワードでマッチングを行い,同じ単語が見つかった場合,
発話された単語とこだわり条件を関連付ける.例えば,「ワンちゃんを飼いたい.」という会 話から抽出された「飼う」という動詞と,「ペット相談可」というこだわり条件に設定した
「ペット」というキーワードをそれぞれWord2Vecで拡張すると,「飼い主」という拡張キ ーワードが一致する.そのため,「ワンちゃんを飼いたい.」と要求するユーザに対して「ペ ット相談可」というこだわり条件を推薦することができる.
本論文ではこのアプローチを採用し,知見タグと入力クエリを Word2Vec で拡張する手 法を提案する.提案システムのデータ利活用知識モデル連結図を図 3.36に示す.データ利 活用知識(1′)と(2)のモデルを組み合わせることで,「知見タグ」「特徴的変動」「Data Jacket」
を連結する.さらに「知見タグ」それぞれに対しWord2Vecで関連語を検索し,「拡張タグ」
テーブルに拡張タグとして格納する.拡張タグのテーブルに関するカラム情報を表 3.18に 示す.クエリとして入力されたアイテム名について「Data Jacket」「知見タグ」「拡張タグ」
それぞれのテーブルに対して部分一致検索を行いData Jacket を検索するが,検索結果が 2011年3月11日に,東北地方
太平洋沖地震が発生し,多く の被害をもたらした.この地震 による災害に伴い福島第一原 子力発電所事故が起こり,大 量の放射性物質が漏洩した.
自然災害
東北地方太平 洋沖地震
福島 原子力発電所
放射性物質 SI
2011-1~2011-3 Data Jacket 地震
特徴的変動
知見
SI 2011-1~2011-3
地震
従来システムV2 提案システム
東日本大震災
54
存在しなかった場合,入力されたアイテム名からWord2Vec で取得した類義語を拡張クエ リとして,類似度の高いものから順に最大 5 単語まで再検索を行い,検索結果が取得され たら終了する.
図 3.36:提案システムのデータ利活用知識モデル連結図
表 3.18:拡張タグ(テーブル名:g_tagexes)のカラム情報 tag:1
tag:2
var:1
var:2
var:3
dj:1
dj:2
dj:3 知見タグ 特徴的変動 (クエリ) Data Jacket
discover get
tag_ex:1
tag_ex:2 拡張タグ
tag_ex:3
tag_ex:4
Word2Vec
No 論理名 物理名 データ型 Not NULL デフォルト 備考
1 id int(11) Yes
2拡張タグ name varchar(255) NULL
55
入力クエリとData Jacketのマッチングの概念図を図 3.37に示す.「食中毒(患者数)」
というData Jacketが作成された動向情報が2012年11月~12月に急上昇しているが,こ
れはノロウイルス患者が急激に増加したためであることがわかった.そこで「ノロウイルス」
を知見タグの一つとし,Word2Vecで拡張タグを付与した.一方,食中毒の原因である「サ ルモネラ菌」というキーワードでData Jacketを検索した場合,関連したData Jacketと 考えられる「食中毒(患者数)」を検索することができない.このとき「サルモネラ菌」に
ついて Word2Vec で関連語を検索し,拡張クエリとして再検索を行う.2 件目の拡張クエ
リ「レジオネラ」というキーワードが拡張タグと一致しているため,「食中毒(患者数)」と
いうData Jacketを取得し,検索を終了する.
図 3.37:入力クエリとData Jacketのマッチングの概念図 拡張クエリ
入力クエリ サルモネラ菌
ウェルシュ菌 レジオネラ
野兎病 河井博大 セレウス菌
ノロウイルス SI 2012-11~2012-12
食中毒(患者数) Data Jacket 特徴的変動 知見タグ 拡張タグ レジオネラ
カンピロバクター 食中毒 感染性胃腸炎 腸管出血性大腸菌
56
Word2Vecによって取得した類義語はノイズを含む可能性があり,Data Jacketとの関連
の強さは一定ではない.そこで,本論文では関連度を定義する.図 3.36の知見タグと拡張 タグはデータベース上では別のテーブルに格納されているが,ある知見タグの拡張タグは すべて,その知見タグと連結している特徴的変動に関連付けられていると考えることがで きる.さらに,ある特徴的変動は特定のData Jacketに関連付けられているため,ある特徴 的変動に関連付けられているタグはすべて,その特徴的変動と連結している Data Jacket に関連付けられていると考えることができる.以上から,拡張タグと知見タグはすべてData
Jacketと連結していると仮定し,図 3.38に示すように,それらのタグとData Jacket間
に関連度を定義する.拡張タグとData Jacket 間の関連度の初期値は,拡張タグと拡張さ れた知見タグのベクトル間のコサイン類似度とする.知見タグはユーザが設定したもので あることから関連度が高いと考え,知見タグとData Jacket 間の関連度の初期値は1.0と する.例えば,Data Jacket検索を行い「tag_ex:3」「tag_ex:4」とマッチングした場合,
「dj:3」が取得される.このとき「tag_ex:3」と「dj:3」間の関連度は0.9,「tag_ex:
4」と「dj:3」間の関連度は0.6となる.また,Data Jacket検索を行い「tag:1」とマッ
チングした場合,「dj:1」「dj:2」が取得される.このとき「tag:1」と「dj:1」間,「tag:
1」と「dj:2」間の関連度はどちらも1.0となる.
さらに,ユーザの評価によって関連度を更新する.ユーザが拡張タグもしくは知見タグが
Data Jacketと関係があると思った場合Good,関係がないと思った場合Bad,どちらとも
言えない場合はNeutralとする.評価したユーザ1人につき,評価対象のタグとData Jacket 間の関連度に対して Good の場合+1.0,Bad の場合-1.0 とする.Neutral の場合変化はな
い.Data Jacketの検索結果に対し,算出した関連度によってランキングを行うことでタグ
と関係のあるData Jacketを取得することが容易になると考える.
57
図 3.38:タグとData Jacket間に関連度を定義した図
tag : 1
tag : 2
dj:1
dj : 2
dj : 3
タグ Data Jacket
tag_ex : 1
tag_ex : 2
tag_ex : 3
tag_ex : 4
関連度
1.0 1.0
0.8 0.8 0.7
0.7
1.0
0.9
0.6
58
提案するData Jacket検索システムの検索結果例の一部を図 3.39に示す.Data Jacket
の検索結果は検索結果上部のタブで切り替えて確認することができる(図 3.40).図 3.39 では2012年11月~12月の期間で「食中毒」をクエリとして検索している.「Item」は,
Data Jacketを作成した動向情報のアイテム名である.「Matching result」は,どのテーブ
ルへの検索結果としてData Jacket が取得されたかを表しており,赤い枠が該当するテー ブルである.「ノロウイルス」についてのData Jacketは,「集団食中毒」というタグがマッ チして取得されていることがわかる.「食中毒(患者数)」のData Jacketは,2012年11月
~12 月に SI となっている特徴的変動の期間がマッチして取得されていることがわかる.
また,アイテム名をクリックすることでData Jacket と知見の詳細を確認することができ る.提案システムのData Jacketと知見の詳細画面を図 3.41に示す.この画面で知見タグ もしくは拡張タグとData Jacketの関係を評価する.ここでは『「食中毒(患者数)」との関 係』という欄に表示されている「Good」「Bad」ボタンで評価し,「Reset」ボタンでNeutral となる.
図 3.39:Data Jacket検索システムの検索結果例の一部
図 3.40:検索結果切り替えタブ
59
図 3.41:提案システムのData Jacketと知見の詳細画面
Data Jacketとタグの関係を評価
60