• 検索結果がありません。

情報集約データベースの課題

ドキュメント内 情報集約データベースに関する研究 (ページ 90-94)

第 7 章 情報集約データベースの実現と評価 69

7.3 情報集約データベースの課題

第7章 情報集約データベースの実現と評価

う限定された範囲内ではあるが,本研究で提案しているIADBを用いて,実際にオンライ ンの実サービスを実現できることを確認した.

7.3 情報集約データベースの課題 望に対応するために,各評価属性や評価表現がそれぞれ,どの観点に分類されるか の辞書を人手で用意した.次に,作成した辞書を用いて,評価属性や評価表現を各 観点に変換し,これをグループキーとするmakeGroupKey関数を実装することで対 応した.映画のように対象ドメインが固定されていれば,このような対応ができる.

しかしながら,任意の商品名が入力されるサービスの場合に,商品カテゴリごとに 評価の観点を固定したいという場合も起こりえる.例えば,テレビなら画質,音質,

デザイン,掃除機なら吸引力,静音性,使い勝手などの観点がある.現状のアーキ テクチャでは,入力されたキーワードから,商品カテゴリは分からないので,事前 抽出できる固有表現を除くと,このような商品カテゴリごとに集計の観点を変更す ることはできない.このように,IADBでは,入力キーワードのカテゴリを何らか の方法で推定する機能をもつことが望ましい.

(3) 分類されたグループからの集計値の生成

情報集約言語では,階層的なグループ化に加えて,各ノードの配下の総タプル数と,

直下の子ノード数を集計値として,各ノードに付与するようにしている.しかしな がら,比率などを求めるためには,上位のアプリケーションプログラムで,集計木 を走査し,関連するノードの総タプル数などを取得し,比率などの計算を行う必要 がある.

一方,いくつかの可視化画面の生成では,各ノードにグループを表すラベルを振る 必要があった.例えば,第6章の図 6.5のクラスタリングの例では,各グループを 表すラベルとして,頻度が最大となる評価属性を付与している.この機能は,上位 のアプリケーションプログラムで個別に実装を行ったが,ラベル生成方法を呼び出 せるなどの拡張が望ましい.

このように,現状の情報集約言語では,主に情報要素タプルをグループ化する機能 だけをサポートしているが,各グループや場合よってはもう少し広い範囲の集計木 を対象に,各種の統計量計算やラベル生成を行うための外部関数を呼び出す機能を もつことが望ましい.この機能によって,上位アプリケーションプログラムの実装 範囲を更に削減できる.

(4) 文書などを単位とした集計

情報要素タプルを単位とするのではなく,文書を単位として集計を実施したいとい う要望もあった.例えば,対象キーワードに言及した記事数の折れ線グラフを生成 するなどである.現状では,文書をいったん情報要素タプルに分解した上で情報要 素リレーションを生成し,更に文書IDをグループキーとすることで所望の結果を 得ることができるが,このような処理では時間がかかる.一方,文書をタプル単位 に分解することなしに,集計を行うようにすれば高速化が期待できる.このように,

問合せ処理の最適化機能をもつことが望ましい.

7.3.2 情報集約結果の妥当性

全体的な傾向として,出現頻度が高く,かつ,多義性がなく対象物を特定できるキーワー ドの情報集約結果は,比較的高い精度であった.一方で,典型的な問題として次のような

第7章 情報集約データベースの実現と評価 ものがあり,精度を低下させる要因となっていた.

出現頻度が低いキーワード

Web上にほとんど記述されていない用語に関しては,当然,集約結果の生成は困難 である.しかしながら,現状は,入力キーワードの完全一致だけをサポートしてい るが,検索時に表記ゆれを展開するなどの手法を用いることによって,そのままで は出現頻度が低いキーワードをカバーできる.ただし,これには次の課題がある.

(1) 表記ゆれの自動展開を行うための辞書やアルゴリズム

(2) 検索条件の展開だけでなく,集計条件も同時に展開を行うための処理方法 現状,IADBへの問合せを生成するのは上位のアプリケーションプログラムであるが,

表記ゆれの自動展開を行う機能を個別に実装することは難しい.このため,IADB 内部で,何らかの自動展開機能をもつことが望ましい.

特定性が低いキーワード

短い識別番号などの場合,多義性が大きく,関係のない情報要素属性を抽出してい た.また,一般語の場合,特定性の低い誤った情報を抽出する傾向にあった.例え ば,“昨日のAカントリーでのゴルフは楽しかった”という特定のゴルフ場に紐づく 評判情報から,<ゴルフ,楽しかった>という一般的なゴルフに関する評判情報を抽 出してしまうなどである.これは,動的タプル生成では,固有表現であるかどうか にかかわらず,入力された任意のキーワードを対象物として情報要素タプルを生成 してしまうことに原因がある.更に,‘VAIO’などの固有表現ではあるが,同一ブラ ンドのグループを表す表現が入力されることもあった.これに対して,文書には,あ

る‘VAIO’の機種に関する評判が記述されていたが,ユーザが望んだ機種と,文書中

の機種が一致しないこともあった.このように,対象物の特定は難しい課題であり,

今後の研究が必要である.

対象文書のランキング

IADBでは,処理効率のために全数での集計は難しく,対象文書をランキングし,上 位の文書だけから情報要素タプルを生成している.文書の検索時に,評判を含むも のや,対象とする属性をもつもので絞込みができることを第5章の5.4.2節に示した が,これに加えて,有用な文書をサンプリングするための文書のランキング手法が 重要であった.例えば,各文書のレビューらしさや,スパムページのランクを下げる などの対応を行わないと良好な集約結果は得られなかった.このため,文書検索式 に独自の追加を行い精度を調整するなどの機能が必要となった.このように,IADB では,対象文書を取得するための戦略(レビューを優先し,スパムを下げるなど)を 柔軟に組み込めることが望ましい.

7.3.3 情報集約サービスの適用範囲

ブログ記事を対象とした評判情報の集約を行うオンラインサービスが実際にどのように ユーザに利用されていたのかを検証するために,第5 章の5.5.2節の方法で収集した100

7.3 情報集約データベースの課題

表7.2評判分析サービスに投入されたキーワードのクラス 拡張固有表現階層 個数 例

人名 31 二宮和也,舞花,加藤ミリヤ,江崎,YUKI,obama,ラル ク,氷川きよし,土佐尚子,海野フミ子,松井秀喜など

組織名 27 JCB,大丸,山形オートリサイクルセンター,大地を守る,

よこしまブロッコリー,民主党,NEDO,ベストくすりなど

製品名 24

商品名 9 vaio,ナノックス,クロックマン,レガシィ,新型フィット,

リポビタンD,グインサーガ,重力ピエロ,セブンティーン   商品識別番号 3 DT615,DTV–H400S, D–11M

上記以外 12 雄魂姓名録,wakwak,デジプリ,ジャンナビ,コラショ,マ イエリア,エコポイント,はやぶさ,ガルギールなど

施設名 13

店舗・遊戯施設名 8 さやの湯,ソルレヴァンテ,岸権,スイーツきたがわ,あり そ鮨し,武道館,吉祥寺美術館,パゴン本店

上記以外 5 電気通信大学,川女,京都橘大学,田園調布,首都高 その他の拡張固有表現 2 通風,長崎

拡張固有表現以外 3 ゴルフ,トイガン,Government

語を用いる.これらのキーワードを収集したサービスは,本章で述べた評判分析サービス とはユーザインタフェースが異なるが,内部でIADBを利用し,ユーザのキーワード入力 に対して,ブログ記事内の評判情報の集約結果を可視化して表示している.

まず,これら100語に対して,第4章の4.1節の拡張固有表現階層のクラスを人手で付 与した.最上位の階層の各クラスに含まれるキーワード数は表7.2のとおりである.ここ で,分析のために次の独自のクラスを定義した.

商品名: 製品名の中で,特に,EC(Electronic Commerce)サイトなどで,販売されると 想定されるもの

商品識別番号: 商品名の中で,その表記が英数字と記号で構成されるもの

店舗・遊戯施設名:施設名の中で,特に,商品や食事などのサービスをユーザに提供する もの

表7.2のように,拡張固有表現に分類されないキーワードは,3語だけで,ユーザがキー ワードを入力する際には,ほとんどの場合で,特定性の高い固有表現を入力する傾向に あった.また,想定では,評判というサービスの性格上,商品名や店舗・遊戯施設名が多 いと予想していたが,実際には,それぞれ,全体の12%(商品識別番号を含む),8%と少 なく,実際のユーザの入力は,人名,組織名が特に多かった.商品名や,店舗・遊戯施設 名については,すでに多くのEC,グルメ,旅行サイトなどでレビューを公開している.一 方,その他の評判情報の多くは,どこかの特定のサイトに存在しているわけではない.こ のため,任意のキーワードを入力とし,大規模なブログ記事から評判情報を抽出するサー ビスは,商品名や店舗・遊戯施設名以外のキーワードで多く利用されていたと考えている.

ドキュメント内 情報集約データベースに関する研究 (ページ 90-94)