情報集約データベースの課題

第 7 章情報集約データベースの実現と評価 69

7.3 情報集約データベースの課題

第7章情報集約データベースの実現と評価

う限定された範囲内ではあるが，本研究で提案しているIADBを用いて，実際にオンラインの実サービスを実現できることを確認した．

7.3 情報集約データベースの課題望に対応するために，各評価属性や評価表現がそれぞれ，どの観点に分類されるかの辞書を人手で用意した．次に，作成した辞書を用いて，評価属性や評価表現を各観点に変換し，これをグループキーとするmakeGroupKey関数を実装することで対応した．映画のように対象ドメインが固定されていれば，このような対応ができる．

しかしながら，任意の商品名が入力されるサービスの場合に，商品カテゴリごとに評価の観点を固定したいという場合も起こりえる．例えば，テレビなら画質，音質，

デザイン，掃除機なら吸引力，静音性，使い勝手などの観点がある．現状のアーキテクチャでは，入力されたキーワードから，商品カテゴリは分からないので，事前抽出できる固有表現を除くと，このような商品カテゴリごとに集計の観点を変更することはできない．このように，IADBでは，入力キーワードのカテゴリを何らかの方法で推定する機能をもつことが望ましい．

(3) 分類されたグループからの集計値の生成

情報集約言語では，階層的なグループ化に加えて，各ノードの配下の総タプル数と，

直下の子ノード数を集計値として，各ノードに付与するようにしている．しかしながら，比率などを求めるためには，上位のアプリケーションプログラムで，集計木を走査し，関連するノードの総タプル数などを取得し，比率などの計算を行う必要がある．

一方，いくつかの可視化画面の生成では，各ノードにグループを表すラベルを振る必要があった．例えば，第6章の図 6.5のクラスタリングの例では，各グループを表すラベルとして，頻度が最大となる評価属性を付与している．この機能は，上位のアプリケーションプログラムで個別に実装を行ったが，ラベル生成方法を呼び出せるなどの拡張が望ましい．

このように，現状の情報集約言語では，主に情報要素タプルをグループ化する機能だけをサポートしているが，各グループや場合よってはもう少し広い範囲の集計木を対象に，各種の統計量計算やラベル生成を行うための外部関数を呼び出す機能をもつことが望ましい．この機能によって，上位アプリケーションプログラムの実装範囲を更に削減できる．

(4) 文書などを単位とした集計

情報要素タプルを単位とするのではなく，文書を単位として集計を実施したいという要望もあった．例えば，対象キーワードに言及した記事数の折れ線グラフを生成するなどである．現状では，文書をいったん情報要素タプルに分解した上で情報要素リレーションを生成し，更に文書IDをグループキーとすることで所望の結果を得ることができるが，このような処理では時間がかかる．一方，文書をタプル単位に分解することなしに，集計を行うようにすれば高速化が期待できる．このように，

問合せ処理の最適化機能をもつことが望ましい．

7.3.2 情報集約結果の妥当性

全体的な傾向として，出現頻度が高く，かつ，多義性がなく対象物を特定できるキーワードの情報集約結果は，比較的高い精度であった．一方で，典型的な問題として次のような

第7章情報集約データベースの実現と評価ものがあり，精度を低下させる要因となっていた．

• 出現頻度が低いキーワード

Web上にほとんど記述されていない用語に関しては，当然，集約結果の生成は困難である．しかしながら，現状は，入力キーワードの完全一致だけをサポートしているが，検索時に表記ゆれを展開するなどの手法を用いることによって，そのままでは出現頻度が低いキーワードをカバーできる．ただし，これには次の課題がある．

(1) 表記ゆれの自動展開を行うための辞書やアルゴリズム

(2) 検索条件の展開だけでなく，集計条件も同時に展開を行うための処理方法現状，IADBへの問合せを生成するのは上位のアプリケーションプログラムであるが，

表記ゆれの自動展開を行う機能を個別に実装することは難しい．このため，IADB 内部で，何らかの自動展開機能をもつことが望ましい．

• 特定性が低いキーワード

短い識別番号などの場合，多義性が大きく，関係のない情報要素属性を抽出していた．また，一般語の場合，特定性の低い誤った情報を抽出する傾向にあった．例えば，“昨日のAカントリーでのゴルフは楽しかった”という特定のゴルフ場に紐づく評判情報から，<ゴルフ，楽しかった>という一般的なゴルフに関する評判情報を抽出してしまうなどである．これは，動的タプル生成では，固有表現であるかどうかにかかわらず，入力された任意のキーワードを対象物として情報要素タプルを生成してしまうことに原因がある．更に，‘VAIO’などの固有表現ではあるが，同一ブランドのグループを表す表現が入力されることもあった．これに対して，文書には，あ

る‘VAIO’の機種に関する評判が記述されていたが，ユーザが望んだ機種と，文書中

の機種が一致しないこともあった．このように，対象物の特定は難しい課題であり，

今後の研究が必要である．

• 対象文書のランキング

IADBでは，処理効率のために全数での集計は難しく，対象文書をランキングし，上位の文書だけから情報要素タプルを生成している．文書の検索時に，評判を含むものや，対象とする属性をもつもので絞込みができることを第5章の5.4.2節に示したが，これに加えて，有用な文書をサンプリングするための文書のランキング手法が重要であった．例えば，各文書のレビューらしさや，スパムページのランクを下げるなどの対応を行わないと良好な集約結果は得られなかった．このため，文書検索式に独自の追加を行い精度を調整するなどの機能が必要となった．このように，IADB では，対象文書を取得するための戦略（レビューを優先し，スパムを下げるなど）を柔軟に組み込めることが望ましい．

7.3.3 情報集約サービスの適用範囲

ブログ記事を対象とした評判情報の集約を行うオンラインサービスが実際にどのようにユーザに利用されていたのかを検証するために，第5 章の5.5.2節の方法で収集した100

7.3 情報集約データベースの課題

表7.2評判分析サービスに投入されたキーワードのクラス拡張固有表現階層個数例

人名 31 二宮和也，舞花，加藤ミリヤ，江崎，YUKI，obama，ラルク，氷川きよし，土佐尚子，海野フミ子，松井秀喜など

組織名 27 JCB，大丸，山形オートリサイクルセンター，大地を守る，

よこしまブロッコリー，民主党，NEDO，ベストくすりなど

製品名 24

商品名 9 vaio，ナノックス，クロックマン，レガシィ，新型フィット，

リポビタンD，グインサーガ，重力ピエロ，セブンティーン商品識別番号 3 DT615，DTV–H400S, D–11M

上記以外 12 雄魂姓名録，wakwak，デジプリ，ジャンナビ，コラショ，マイエリア，エコポイント，はやぶさ，ガルギールなど

施設名 13

店舗・遊戯施設名 8 さやの湯，ソルレヴァンテ，岸権，スイーツきたがわ，ありそ鮨し，武道館，吉祥寺美術館，パゴン本店

上記以外 5 電気通信大学，川女，京都橘大学，田園調布，首都高その他の拡張固有表現 2 通風，長崎

拡張固有表現以外 3 ゴルフ，トイガン，Government

語を用いる．これらのキーワードを収集したサービスは，本章で述べた評判分析サービスとはユーザインタフェースが異なるが，内部でIADBを利用し，ユーザのキーワード入力に対して，ブログ記事内の評判情報の集約結果を可視化して表示している．

まず，これら100語に対して，第4章の4.1節の拡張固有表現階層のクラスを人手で付与した．最上位の階層の各クラスに含まれるキーワード数は表7.2のとおりである．ここで，分析のために次の独自のクラスを定義した．

商品名: 製品名の中で，特に，EC（Electronic Commerce）サイトなどで，販売されると想定されるもの

商品識別番号: 商品名の中で，その表記が英数字と記号で構成されるもの

店舗・遊戯施設名：施設名の中で，特に，商品や食事などのサービスをユーザに提供するもの

表7.2のように，拡張固有表現に分類されないキーワードは，3語だけで，ユーザがキーワードを入力する際には，ほとんどの場合で，特定性の高い固有表現を入力する傾向にあった．また，想定では，評判というサービスの性格上，商品名や店舗・遊戯施設名が多いと予想していたが，実際には，それぞれ，全体の12%（商品識別番号を含む），8%と少なく，実際のユーザの入力は，人名，組織名が特に多かった．商品名や，店舗・遊戯施設名については，すでに多くのEC，グルメ，旅行サイトなどでレビューを公開している．一方，その他の評判情報の多くは，どこかの特定のサイトに存在しているわけではない．このため，任意のキーワードを入力とし，大規模なブログ記事から評判情報を抽出するサービスは，商品名や店舗・遊戯施設名以外のキーワードで多く利用されていたと考えている．

ドキュメント内情報集約データベースに関する研究 (ページ 90-94)

第 7 章 情報集約データベースの実現と評価 69

7.3 情報集約データベースの課題

第 7 章情報集約データベースの実現と評価 69