• 検索結果がありません。

情報集約データベースの実現上の課題

ドキュメント内 情報集約データベースに関する研究 (ページ 36-39)

第 3 章 情報集約モデルと情報集約データベース 17

3.4 情報集約データベースの実現上の課題

3.3節で述べたIADBを実現するためには,次の2つの技術課題がある.

3.4 情報集約データベースの実現上の課題

表 3.1情報集約データベースの実現へのアプローチ

技術課題 技術課題へのアプローチ 詳細

技術課題1 文書から対象物を抽出するための固有表現辞書 の自動構築手法

4章 対象物を表す入力キーワードを用いた動的な情

報要素リレーションの生成手法

5章 技術課題2 クロス集計と表記ゆれに対応した情報集約言語 第6

技術課題1: 文書中の情報の断片からの情報要素タプルの自動生成 技術課題2: 集約処理を実行するための問合せ言語

これらの技術課題とその解決へのアプローチを表3.1に示す.次に各アプローチの概要を 述べる.

技術課題1に関して,情報要素タプルの生成に利用できる技術として,固有表現抽出や 評判,時間情報の抽出などがある.ここで,評価表現[34]や時間表現などは一般語である ため事前に抽出できることが多いが,対象物を表すキーワード(例えば製品名)は未知語 となることが多く,文書から抽出することは依然として困難である[13].そのため,対象 物の抽出を容易にするために,固有表現の辞書を自動生成することが有効である.第4章 では,このような固有表現の辞書の自動構築手法の課題と解決策を述べる.

また,固有表現の辞書を自動生成する手法を確立し,辞書の語彙がいくら増えたとして も,固有表現は,日々生まれるため未知語はなくならず,対象物を完全に自動抽出するこ とは不可能である.このため,対象物を含む完全な形で情報要素タプルを事前に生成する ことはできず,事前生成したタプルを通常のRDBで管理する方法は利用できない.一方,

情報集約タスクは多くの場合,分析の対象となるキーワードでの検索によって開始される ため,入力キーワードとの単純なマッチングによって,情報集約タスク実行時に文書中か ら分析の対象となる用語を抽出することは容易である.そのため,入力されたキーワード を利用して情報報要素タプルを生成するアプローチが有効である.しかしながら,当然,

情報要素タプルを生成する処理全てを実行時に行っていたのでは,実行時間が長くかかり すぎる.そこで,第5章では,特に,事前抽出が可能な情報要素の一部だけをあらかじめ 処理し,キーワードと結びつける処理だけをオンラインで実行することで,未知語に対応 しながら,高速に情報要素リレーションを生成する手法を提案する.また,提案手法を評 判情報の集約タスクにおける情報要素リレーションの生成処理に適用し,その高速化の効 果を検証する.

技術課題2に関して,情報要素リレーションが生成されれば,SQLを用いてある程度情 報集約処理を記述することができる.しかしながら,アプリケーションプログラムでは,

集約結果をユーザに対して分かりやすく表示する必要があるが,形式化されたデータの検 索を主な目的とするSQLでは,必ずしもこのような集約結果の可視化に向いた集計デー タを生成できるわけではない.特に,次の2点がSQLでは対応できない重要な要件であ ると考えている.

(a) 複数の観点でのクロス集計結果の可視化が行いやすいように,階層的な内訳をもつ

第3章 情報集約モデルと情報集約データベース 集約結果を生成できること

(b) 自然言語で記述された文書から抽出された属性値を対象とできるように,表記ゆれ などに対応した柔軟な集計を実行できること

第6章では,これらの要件の詳細について述べるとともに,情報集約言語を設計・実現 する.

ドキュメント内 情報集約データベースに関する研究 (ページ 36-39)