• 検索結果がありません。

Web コンテンツの抽出,省略,要約

デスクトップコンピュータ用に生成されたWebコンテンツをクライアント(ユーザ)

の表示画面に合わせたコンテンツに変換するためには,もとのWebコンテンツに対し コンテンツの抽出,省略,要約をする必要がある.代表的なシステムとして, Digestor

システム と Power Browserシステム がある.他には,Webコンテンツを個人端

末に表示する手法に関して,Bartlett[36],Cesslerら[37],Voelkerら[38],Watson[39]

たちが研究を行った.

7.1.1 Digestor システム

Bickmoreらはデスクトップ用に作成されたWebベースのコンテンツをPalm-PCや PDA,携帯電話などの小さい表示画面を持つモバイル装置に合うフォーマットに自動 変換するシステムであるDigestorを提案した[18, 19].Digestorシステムは,与えら

Outlining transforms:テクニカルペーパーやレポートのように各項目を持つ 文書は各項目の内容をリンク先に移動して,項目だけ残すことによって表示画面 サイズに合わる.

First sentence elision transform: 各テキストブロックは最初のページだけ 残して,残りのページはリンク先のページに変換する.これにより表示に必要な 画面の範囲が減少できる.

Indexed segment transform: まずWebページが内容を基にソーティングさ れているページであるかソーティングされていないページであるか,内容的に あるいは構造的に連続しているページであるか(PreviousやNextリンクを持っ ている),ページ1つずつの段落になっているページ(この文からリンク先がな い)であるかテーブルであるかなど,論理的に分割できるページの要素1を探し てユーザ表示画面のサイズが一杯になるまで適切に入れる.残る要素は Next

と Previous ナビゲーションリンク先の文書に分ける.

Table transform: テーブルはそのままユーザに提供せず,各セルずつ上から 下に,左から右の順に分割してページに変換する.

Image reduction and elision transforms: Digestorシステムで指定されて いるスケーリングファクター(25%,50%,75%)に基づき,画像の縮小を行う.

Image map transform: ユーザが縮小した画像が表示できないぐらい小さい 画面に対しては,画像は表示しない.しかし,画像がリンクを持っている場合は HTMLの alt タグを利用し,リンク先のページをなくさないようにリンク情 報を維持する.

Digestorシステムは,このように発見的手法によって,求められた優先順位に基づ

いてOutlining以外にも,ユーザ画面に合わせてフォントの縮小処理を行うため,オリ

ジナルのイメージを壊すことなくWebコンテンツをユーザに提供できる.ACTIVIEW

1ページに含まれている段落など.ページを構成するHTMLの分析によって指定される.たとえば,

tabledivタグなどによって内容が分けられると,これが1つの構成要素の基準になる.

と比べて,PDAや携帯電話など限られている対象に最適化されている.特に Indexed segment transform 手法はSuperSQLシステムで行う ORDER BY によるソーティ ングと似ている.ACTIVIEWでもリンク変換によってページ1つずつ生成しているが,

previousやNextリンク の支援はまだしていない欠点がある.

Table transform 処理によってテーブルを分割して,ユーザにWebの内容を提供 しているが,上から下に,左から右の順に分けるだけでは複雑な型のテーブルに対応す るのは困難である.これに比べ,ACTIVIEWは構造的な定義を基にしているのでテー ブル型に依存しない.

7.1.2 Power Browser システム

Buyukkoktenらは,小さい端末表示画面にWebページの内容を提供するために,Web ページにある単語の重要度を用いて文章の要約を行いテキストのみでユーザに提示す るPower Browserシステムを提案した[20, 21, 22].Power Browserシステム(図7.1)

では,Stanford大学のDigital Libraryプロジェクトの一部分で,ユーザの必要としな い情報はなるべく表示せず,ユーザの必要に応じて簡単な操作でより多くの情報を表 示することができるAccordion Summarizationという手法を用いている[23].

Accordion Summarizationでは3つの手法を使っている.

Page Summarization: 元のWebページを長方形の semantic textual units

(STUs) と呼ぶ単位に分ける.STUsはHTMLタグ(br, tableなど)を基準に して分ける.各部分を1行に要約し,それらを木構造に表示する.1行にした後 のSTUsの残りの部分はリンク先のページになる.図7.1の7 は最初の5個の単 語に要約されている(図7.1の).A

Keyword-Driven Summarization: PDAなどの小さい画面から必要な内容 を探すことは手間がかかる.そこでKWICインデックス[40]を利用し,木構造 のすべてのノードにキーワードを自動的に貼り付ける.この手法によって,ユー ザがPDAを通じて内容を検索する際,入力した単語に対する検索時間を減らす ことが出来る.検索された単語はハイライトされる(図7.1のB).

Automated View Transitions:小さい画面でリンク先に動いたりすると元に 戻りにくくなる.そこで,ユーザが小さい画面に適応できるように,急に画面を 変えず,アップダウン動作をする Smooth scrolling とユーザにとって見やすい オートスクロール機能の Automated page scrolling ,発見的な手法によるコン

図 7.1: Powser Browserシステム

テンツの省略機能の Automated single-line reading の3つの手法を提案して いる.

Power Browserシステムは自動的なWebページの分析を行って結果を木構造に作成

した後,PDAや携帯電話に提供する手法をもっているため,ACTIVIEWとは対象に なる元のデータが異なる.特に,Digital Libraryプロジェクトの一部分で行って研究 であるので検索機能を重要な特徴としている.

Page Summarization 手法は長い記事やテキストコンテンツなどを表示する際

にACTIVIEWでも利用すべきであると考える.今後,Digestorシステムの Indexed segment transform と Page Summarization 手法をACTIVIEWに適用する手法に 関して研究を続きたいと考える.