情報集約データベースの実現上の課題

第 3 章情報集約モデルと情報集約データベース 17

3.4 情報集約データベースの実現上の課題

3.3節で述べたIADBを実現するためには，次の2つの技術課題がある．

3.4 情報集約データベースの実現上の課題

表 3.1情報集約データベースの実現へのアプローチ

技術課題技術課題へのアプローチ詳細

技術課題1 文書から対象物を抽出するための固有表現辞書の自動構築手法

第4章対象物を表す入力キーワードを用いた動的な情

報要素リレーションの生成手法

第5章技術課題2 クロス集計と表記ゆれに対応した情報集約言語第6章

技術課題1: 文書中の情報の断片からの情報要素タプルの自動生成技術課題2: 集約処理を実行するための問合せ言語

これらの技術課題とその解決へのアプローチを表3.1に示す．次に各アプローチの概要を述べる．

技術課題1に関して，情報要素タプルの生成に利用できる技術として，固有表現抽出や評判，時間情報の抽出などがある．ここで，評価表現[34]や時間表現などは一般語であるため事前に抽出できることが多いが，対象物を表すキーワード（例えば製品名）は未知語となることが多く，文書から抽出することは依然として困難である[13]．そのため，対象物の抽出を容易にするために，固有表現の辞書を自動生成することが有効である．第4章では，このような固有表現の辞書の自動構築手法の課題と解決策を述べる．

また，固有表現の辞書を自動生成する手法を確立し，辞書の語彙がいくら増えたとしても，固有表現は，日々生まれるため未知語はなくならず，対象物を完全に自動抽出することは不可能である．このため，対象物を含む完全な形で情報要素タプルを事前に生成することはできず，事前生成したタプルを通常のRDBで管理する方法は利用できない．一方，

情報集約タスクは多くの場合，分析の対象となるキーワードでの検索によって開始されるため，入力キーワードとの単純なマッチングによって，情報集約タスク実行時に文書中から分析の対象となる用語を抽出することは容易である．そのため，入力されたキーワードを利用して情報報要素タプルを生成するアプローチが有効である．しかしながら，当然，

情報要素タプルを生成する処理全てを実行時に行っていたのでは，実行時間が長くかかりすぎる．そこで，第5章では，特に，事前抽出が可能な情報要素の一部だけをあらかじめ処理し，キーワードと結びつける処理だけをオンラインで実行することで，未知語に対応しながら，高速に情報要素リレーションを生成する手法を提案する．また，提案手法を評判情報の集約タスクにおける情報要素リレーションの生成処理に適用し，その高速化の効果を検証する．

技術課題2に関して，情報要素リレーションが生成されれば，SQLを用いてある程度情報集約処理を記述することができる．しかしながら，アプリケーションプログラムでは，

集約結果をユーザに対して分かりやすく表示する必要があるが，形式化されたデータの検索を主な目的とするSQLでは，必ずしもこのような集約結果の可視化に向いた集計データを生成できるわけではない．特に，次の2点がSQLでは対応できない重要な要件であると考えている．

(a) 複数の観点でのクロス集計結果の可視化が行いやすいように，階層的な内訳をもつ

第3章情報集約モデルと情報集約データベース集約結果を生成できること

(b) 自然言語で記述された文書から抽出された属性値を対象とできるように，表記ゆれなどに対応した柔軟な集計を実行できること

第6章では，これらの要件の詳細について述べるとともに，情報集約言語を設計・実現する．

ドキュメント内情報集約データベースに関する研究 (ページ 36-39)

第 3 章 情報集約モデルと情報集約データベース 17

3.4 情報集約データベースの実現上の課題

第 3 章情報集約モデルと情報集約データベース 17