• 検索結果がありません。

評判分析サービスへの適用

ドキュメント内 情報集約データベースに関する研究 (ページ 85-90)

第 7 章 情報集約データベースの実現と評価 69

7.2 評判分析サービスへの適用

図7.2評判分析サービス

報集約要求を第6章の図 6.1の問合せ式によって記述できる場合に,そのタスクはIADB 上に実現できる.

7.2節では,実際に評判分析サービスに対して,IADBを適用する例を示す.

7.2 評判分析サービスへの適用

本節では,IADBを実際の評判情報を集約するタスクに適用しその有効性を検証する.

評判分析サービスは,ポータルサイトgoo上の実サービスとして,2007年10月から2009 年7月までの間に公開を行った.評判分析サービスは,数千万件のブログ記事の中から評 判情報を抽出しておき,ユーザがキーワードを入力すると,‘分析する’,‘比較する’,‘関 連語をさがす’という3つの画面で,その結果をオンラインで確認できるサービスである (図7.2).オンラインの処理として,ユーザからキーワードが入力されると,アプリケー ションプログラムは問合せ式を生成し,情報集約データベースへの問合せを行う.IADB は,7.1節で述べたように,XML形式で評判の集約結果を返却する.アプリケーションプ ログラムは,この集約結果XMLを元に画面表示を行う.次に,(1)評判分析システムの 実現方法と,(2)問合せと集約結果の可視化方法について述べる.

7.2.1 評判分析システムの実現方法

文献[34]では,評判情報を,

<Nokia 6800,color screen,nice,the writer>(<対象,側面,評価,評価者>)

第7章 情報集約データベースの実現と評価

表7.1問合せ式

画面名称 検索条件 集計条件 集計名

分析する (IS=’製品A’) (A) v(IP),v(IE) 評価属性分類表示

(B) i(DD,7),v(IP),v(IE) 評判時系列表示

(C) i(DD,3),v(IO) 好評/不評時系列表示

比較する (IS=’製品A’ (D) i(DD,3),v(IS) 話題度時系列比較表示

or ’製品B’ or ’製品C’) (E) cl(IP,IE),v(IS),v(IP),v(IE) 評判同一観点比較表示

関連語を (kw=’サッカー’) (F) v(ISC),v(IS) 関連語クラス分類表示

さがす (G) v(IS),v(IO) 関連語マップ表示

という4つ組で表現している.また,文献[71]では,

<ラーメン屋A, スープ,美味しい> (<対象,属性,評価>)

という3つ組で評判情報を表現している.これらの表現はいずれも対象物(対象)と,そ れに付随する属性(側面,評価,評価者など)の集合と見なすことができるため,情報要 素タプルと等価な表現である.本研究では,これらの先行研究を参考に,第3章の図3.1 に示した情報要素リレーションのスキーマを定義した.

次に,情報集約システムを構成するためにタスクごとに必要な次の3種類の関数を実装 した.

analyzeDocument: 入力された文書から,評判情報を抽出する.第5章の5.5.1節で述 べたものである.

calcTupleScore: 応答速度を重視し,第5章の5.5.3節の距離スコア法によって,タプル スコアを計算する.

makeGroupKey: 第6章で述べたグループ化関数‘v(属性名)’,’dt(日付カラム名,集計 期間)’,’cl(属性名集合)’に対応する処理を実行する.

このように,情報要素リレーションを定義し,3つの種類の関数を定義することによっ て,評判分析システムを実現した.7.2.2節では,このシステムに対する問合せによって,

実際に有用な集計結果が得られることを述べる.

7.2.2 問合せと集約結果の可視化方法

表7.1に実際の問合せ式を示す.また,‘分析する’,‘比較する’,‘関連語をさがす’の各 集約結果画面をそれぞれ,図7.3,図7.4,図 7.5に示す.

図7.3の‘分析する’の画面では,ユーザがキーワードを入力すると,IADBは,第5章 の動的なリレーション生成を行い,表7.1の(A),(B),(C)の集計条件にしたがって,集 約結果を生成する.アプリケーションプログラムは,取得した集約結果からグラフなどを 生成し,図7.3を表示する.各集計条件に応じた動作の概要を次に示す.

7.2 評判分析サービスへの適用

図 7.3 ‘分析する’の画面

(A) 同一の評価属性をもつ情報要素タプルをグループ化し,その配下に関連する評価表 現を出力する.その結果をそのままツリー表示している.例えば,図 7.3では,入 力された製品Aの‘サイズ’に関連する評価表現(‘小さい’や‘いいかな’)を‘サイズ’ 配下にまとめて表示している.

(B) 7日の期間ごとに,評価属性,評価表現の2つ組(評判表現)の個数を集計する.こ

の評判表現の個数の上位語を画面に表示している.この表示によって,入力キーワー ドに対する評判表現が各期間ごとに,どのように変化しているのかが分かる.

(C) 3日の期間ごとに,情報要素タプルを集計し,各期間内は,評価極性(好評,不評,

その他)で集計を行う.各評価極性の個数をタイムチャートに表示している.この 表示によって,好評や不評の評判数の変化や注目度(評判の総数)の推移が分かる.

このように,1つのキーワードに対する評価の側面(評価属性)で分類された評価表現や,

評判表現や好評/不評などの推移を時系列に見ることができる.

図7.4の‘比較する’の画面では,ユーザが2〜3個のキーワードを入力すると,‘分析す

第7章 情報集約データベースの実現と評価

図7.4 ‘比較する’の画面

る’と同様に動的なリレーション生成を行い,(D),(E)の集計条件にしたがって,集約結 果を生成する.アプリケーションプログラムは,取得した集約結果からグラフなどを生成 し,図7.4を表示する.各集計条件に応じた動作の概要を次に示す.

(D) 3日の期間ごとに,情報要素タプルを集計し,各期間内は,入力された各キーワード

で集計を行う.この結果を元に,各対象物についての情報要素タプルの個数をタイ ムチャートに表示している.この表示によって,製品などの注目度の推移を比較す ることができる.

(E) 複数のキーワードに関する評判情報を似た観点が縦に並ぶようにクラスタリングし て表示している.この表示方法については,第6章の6.4節で詳しく述べた.

このように,入力された複数のキーワードに関する注目度の時系列での比較や,似た観点 での評判表現の比較ができる.

図7.5の‘関連語をさがす’の画面は,入力されたキーワードにヒットした文書中に存在 する対象物を集計して表示している.この画面の出力では,ユーザから,対象物自体を表

7.2 評判分析サービスへの適用

図7.5 ‘関連語をさがす’の画面

すキーワードが入力されないため,動的なリレーション生成は行われず,事前抽出された 対象物だけを表示している.現在の実装では,人手で作成した辞書と汎用の固有表現抽出 器を用いて対象物の抽出を行っているが,第4章で述べた手法で自動構築した辞書を利用 することもできる.生成したリレーションに対して,(F),(G)の集計条件にしたがって,

集約結果を生成する.各集計条件に応じた動作の概要を次に示す.

(F) 事前抽出された対象物に付与されたクラス(人物名や組織名など)で対象物を分類 し,各対象物を表示している.この表示方法によって,例えば,‘サッカー’に関す る人物を探すことができる.

(G) 情報要素タプルの対象物ごとの頻度を集計し,更に,各対象物について好評と不評 の割合を集計する.頻度をY軸,好評と不評の割合をX軸とした2次元マップにそ れぞれの対象物を配置して表示している.この表示によって,例えば,‘サッカー’に 関して,話題となり,かつ,好評の評価がされている人物を探すことができる.

ここで,表 7.1の‘関連語をさがす’の検索条件中の‘kw=<キーワード>’は,“キーワードを 含む文書に含まれる事前抽出された完全情報要素タプルを取得する演算子”である.また,

属性名の‘ISC’は対象物のクラス(人名,組織名など)を表し,対象物が事前抽出された

場合だけ付与している.このように,入力されたキーワードに関する対象物を,そのクラ ス(人物や組織名など)や,その話題度や好評か否かに応じて発見することができる.

以上に述べた様々な集約結果画面は,全て,情報集約言語の問合せ結果である木構造の データから実時間で生成している.このように,ある特定の構成の評判分析システムとい

第7章 情報集約データベースの実現と評価

う限定された範囲内ではあるが,本研究で提案しているIADBを用いて,実際にオンライ ンの実サービスを実現できることを確認した.

ドキュメント内 情報集約データベースに関する研究 (ページ 85-90)